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本 书 是 一 本 全 面 介绍 Spark 以 及 Spark 生态 系统 相关 技术 的 书籍 。 主 
要 内 容 包括 Spark 系统 概述 、Spark 安装 和 集群 的 部 署 、RDD 编程 实践 、 
Spark 的 运行 模式 、Spark 的 运行 机 制 以 及 Spark 的 四 大 子 框架 (Spark 
SQL Spark Streaming, Spark GraphX, MLlib) 。 本 书 通过 理论 和 实践 相 结 
合 的 方式 对 Spark 的 核心 框架 和 生态 圈 做 了 详细 的 解读 ， 不 仅 对 Spark 的 
原理 进行 详细 阐述 ， 还 结合 Spark 的 源码 和 案例 操作 介绍 了 Spark 框架 的 
优雅 和 丰富 的 表现 力 。 

本 书 适合 大 数据 从 业者 、Spark 技术 爱好 者 阅读 。 相 信 通 过 学 习 本 书 ， 
读者 能 够 熟悉 和 掌握 Spark 这 一 当前 流行 的 大 数据 计算 框架 ， 并 将 其 投入 
到 实践 中 去 。 
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写作 背景 
2014 年 IDC 预测 ， 未 来 全 球 大 数据 市 场 将 以 每 年 超过 30% 的 速度 增长 ， 而 我 国 更 快 ， 
预计 将 超过 50% 。 


2014 年 ， 帮 肯 锡 统计 美国 医疗 行业 通过 大 数据 获得 潜在 价值 超 3000 亿美 元 ， 欧 洲 各 国 
利用 大 数据 节省 开 文 超 1000 亿 欧 元 。 未 来 在 全 球 的 交通 运输 、 电 力 、 医 疗 健康 等 七 大 领域 ， 
大 数据 将 会 手动 超过 3 万 亿美 元 的 市 场 需 求 。 

大 数据 时 代 ， 各 种 大 数据 处 理 技术 百花 齐 放 ， 有 基于 人 磁盘 进行 数据 计算 的 通用 批 处 理 框 
38 MapReduce (Hadoop 生态 系统 的 大 数据 计算 框架 ) ， 有 低 延 迟 的 实时 流 处 理 框架 Storm, 
也 有 提供 快速 、 交 互 式 查询 的 工具 Impala 等 多 种 针对 不 同 应 用 场景 而 特殊 化 的 处 理 系统 。 
Spark 作为 后 起 之 秀 ， 采 用 Scala 编写 ， 底 层 使 用 Akka 框架 进行 各 个 模块 之 间 的 通信 ， 代 码 
十 分 简洁 。 而 且 它 立 足 于 内 存 计算 ， 以 其 RDD (弹性 分 布 式 数据 集 ) 模型 的 强大 表现 能 
不 断 完善 自己 的 功能 ， 了 逐渐 形成 了 一 套 自己 的 生态 系统 ， 提 供 了 Full -stack 〈 一 栈 式 ) 的 解 
决 方案 。 该 生态 系统 中 主要 包括 负责 即时 查询 的 Spark SQL、 负 责 实 时 流 处 理 的 Spark 
Streaming、 负 责 图 计算 的 Spark GraphX 以 及 机 六 学 习 子 框架 MLlib。 由 于 Spark 在 性 能 和 扩 
展 性 上 有 快速 、 易 用 、 通 用 等 特点 ， 使 它 正 在 加 速成 为 一 体 化 、 多 元 化 的 大 数据 通用 计算 平 
台 和 库 。 

Spark 技术 在 国内 外 的 应 用 越 来 越 广泛 ， 它 正在 逐渐 走向 成 熟 ， 并 在 这 个 领域 扮演 更 加 
重要 的 角色 。 国 外 一 些 大 型 互联 网 公司 已 经 部 署 了 Spark。 例如， 一直 文 持 Hadoop 的 四 大 商 
业 机 构 (Cloudera, MapR, Hortonworks, EMC) 已 纷纷 宣布 支持 Spark; Mahout ( Apache 
Software Foundation (ASF) 底下 的 一 个 开源 项 目 ， 提 供 一 些 可 扩展 的 机 带 学 习 领 域 经 典 算法 
的 实现 ) 也 表示 ， 将 不 再 接受 任何 形式 的 以 MapReduce 实现 的 算法 ， 同 时 还 宣布 了 接受 基 
于 Spark 新 的 算法 ; 而 Cloudera WY Lait -J HESS Oryx 的 执行 引擎 也 将 由 Hadoop 的 MapRe- 
duce 替换 成 Spark; Google 也 已 经 开始 将 负载 从 MapReduce 转移 到 Pregel 和 Dremel E; 
Facebook 也 宣布 将 负载 转移 到 Presto 上 。 而 目前 ， 国 内 的 淘宝 、 优 酷 士 豆 、 网 吻 、 百 度 、 腾 
讯 等 企业 在 自己 的 商业 生产 系统 中 也 已 经 使 用 Spark OR 

鉴于 Spark 的 “One stack to rule them all” 的 架构 理念 和 基于 内 存 进 行 计 算 的 性 能 优势 ， 
笔者 有 理由 相信 Spark 作为 大 数据 技术 领域 的 星星 之 火 ， 终 将 成 为 煤 原 之 势 。 由 于 目前 市 场 
上 介绍 Spark 技术 的 书籍 比较 少 ， 我 们 特意 编写 了 这 本 理论 和 实战 相 结 合 的 Spark 书籍 ， 同 
时 在 介绍 Spark 核心 技术 的 同时 罕 插 了 对 其 源 代码 的 分 析 ， 使 读者 能 从 更 深层 次 来 把 握 
Spark 的 核心 技术 ， 因 为 我 们 始终 坚信 Linux 作者 的 一 句 话 :“ 源 码 是 一 切 问 题 出 现 的 根源 和 
一 切 问 题解 决 的 答案 所 在 ”。 

本 书 内 容 

本 书 总 体 可 以 分 为 三 大 部 分 : 第 1 ~2 章 介 绍 Spark 的 生态 系统 、Spark 集群 的 安装 部 
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E, 583-5 章 介绍 Spark Core 的 运行 原理 和 编程 实践 ， 第 6 ~9 章 围 绕 Spark 的 四 大 子 框架 
Spark SQL, Spark Streaming, Spark GraphX, MLlib 的 工作 原理 和 技术 特点 展开 了 一 系列 的 编 
程 实践 。 在 本 书 推出 之 前 ，Spark R 已 经 作为 Spark 的 一 个 新 的 子 框架 发 布 出 来 ， 这 无 疑 更 
加 快 了 Spark 技术 的 成 长 速度 。 本 书 各 章 的 主要 内 容 介 绍 如 下 。 

第 1 dE: 阐述 了 Spark 的 发 展 历程 、Spark 的 优势 和 Spark 的 生态 系统 全 景 。 

第 2 章 : 介绍 了 Hadoop 集群 和 Spark 集群 的 安装 部 署 过 程 ， 在 挫 建 完成 Spark 集群 之 后 
又 通过 Spark 提供 的 示例 LocalPi 测试 了 Spark 集群 。 

第 3 章 : 首先 详细 介绍 RDD 的 概念 、 特 征 、 操 作 分 类 ， 然 后 以 实战 的 方式 演示 了 Spark 
API 编程 实践 ， 接 着 介绍 了 基于 IntelliJ IDEA 开发 工具 使 用 Spark API 开发 应 用 程序 ， 最 后 分 
别 介绍 了 使 用 SBT 编译 Spark 应 用 程序 和 使 用 Maven 构建 Spark 应 用 程序 。 

第 4 草 : 介绍 了 Spark 的 工作 流程 、Spark 应 用 程序 部 署 、Spark 的 各 种 运行 模式 、Spark 
运行 模式 的 内 部 实现 原理 以 及 各 种 模式 实例 部 署 和 运行 演示 。 

第 5 章 : 介绍 了 Spark 集群 的 架构 、Spark 的 作业 和 任务 调度 、 容 错 机 制 、 存 储 模块 和 
存储 模块 的 架构 、 绥 存 实 现 原理 、 缓 存 策略 、Spark 的 消息 传递 机 制 Akka 的 源码 解析 、 
Shuffle 机 制 (Shuffle 的 读 和 写 操作 ) 、 广 播 变量 、 累 加 需 、Spark 性 能 调 优 。 

第 6 章 : 介绍 了 Spark SQL 原理 和 实现 、Spark SQL 运行 架构 、Hive 在 Spark. 上 的 使 用 、 
源码 解析 SQL 语句 和 HiveQL 语句 的 执行 过 程 。 最 后 用 案例 深入 浅 出 地 介绍 了 Spark SQL 的 
操作 。 

第 7 章 : 介绍 了 Spark Streaming 运行 原理 、 编 程 模型 DStream、 容 错 和 持久 化 、 性 能 调 
优 、 源 码 解 析 Spark Streaming 的 运行 过 程 。 最 后 用 多 个 案例 进行 了 Spark Streaming 操作 实例 
演示 。 

第 8 革 : 介绍 了 弹性 分 布 式 属性 图 、 图 的 切 分 和 存储 策略 、 图 的 操作 、 图 计算 框架 、 图 
算法 的 实现 方法 。 最 后 用 案例 演示 了 图 的 使 用 方法 。 

第 9 章 : 介绍 了 机 融 学 习 的 概念 、 机 器 学 习 的 分 类 、 机 器 学 习 的 稼 用 算法 、MLlib 的 架 
HJ. MLlib 的 数据 类 型 。 最 后 用 案例 介绍 了 机 顺 学 习 的 使 用 ， 包 括 K - Means 算法 解析 和 实 
战 、 协 同 过 滤 算 法 分 析 和 案例 实战 。 
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Spark 是 什么 


Spark 最 初 是 由 伯克利 大 学 的 AMPLab 于 2009 年 提交 的 一 个 项 目 ， 现 在 已 经 是 Apache 
软件 基金 会 旗下 最 活跃 的 开源 项 目 之 一 。 对 于 Spark, Apache Spark 官方 给 出 的 定义 : Spark 
是 一 个 快速 和 通用 的 大 数据 处 理 引 擎 。 可 以 通俗 地 将 Spark 理解 为 一 个 分 布 式 的 大 数据 处 理 
HEAR, EARP RDD (弹性 分 布 式 数 据 集 ) ， 立 足 于 内 存 计算 ， 在 “One stack to rule them all" 
的 思想 引领 下 ， 打 造 了 一 个 可 以 进行 流 式 处 理 ( Spark Streaming) 、 机 器 学 习 (MLlib)、 即 
时 查询 (SparkSQL) 、 图 计算 (GraphX) 等 各 种 大 数据 处 理 、 无 缝 连接 的 一 栈 式 计 算 平 台 。 
由 于 Spark 在 性 能 和 扩展 性 上 有 快速 、 易 用 、 通 用 等 特点 ， 使 它 正在 加 速成 为 一 体 化、 多 元 
化 的 大 数据 通用 计算 平台 和 库 。 

Spark 的 一 栈 式 解决 方案 有 很 多 优势 ， 具 体 如 下 。 

(1) 快速 处 理 。 图 1-1 展示 了 使 用 逻辑 回归 算法 处 理 同 样 大 小 的 数据 ，Hadoop 使 用 的 
时 间 是 110s， 而 Spark 仅仅 使 用 了 0.9s， 这 里 Spark 的 速度 几乎 是 Hadoop 的 100 倍 。 


120 


110 


E Hadoop 


E Spark 


图 1-1 3ETRIBIHSETETE Hadoop 和 Spark. 上 处 理 的 性 能 比较 


Spark 之 所 以 比 Hadoop 快 的 原因 之 一 是 Spark 是 基于 内 存 进 行 计算 的 ， 而 Hadoop 是 基 
于 磁盘 进行 计算 的 。Hadoop 每 一 次 读 取 数据 后 的 计算 结果 都 会 直接 存储 到 磁盘 上 ， 然 后 再 
从 磁盘 读 取 上 次 计算 的 结果 进行 第 二 次 计算 ， 依 此 类 推 ， 这 样 就 产生 了 非常 大 的 1/0 处 理工 
作 量 ， 所 以 速度 就 慢 下 来 了 。 而 Spark 把 数据 读 取 处 理 后 的 计算 结果 直接 放 入 内 存 里 面 ， 然 
后 再 在 内 存 中 使 用 这 个 结果 进行 第 二 次 计算 ， 依 此 进行 下 去 。 所 以 在 迭代 计算 上 Spark 明显 
比 Hadoop 占据 优势 。 

Spark 比 Hadoop 之 所 以 快 的 另外 一 个 原因 是 Hadoop 的 计算 是 按部就班 一 步 一 步 进 行 的 ， 
而 Spark 的 计算 是 具有 预先 筹划 的 ，Spark 把 数据 读 取 进来 之 后 在 使 用 这 些 数据 计算 之 前 会 
把 整个 运算 过 程 绘制 成 一 幅 图 ， 这 个 图 叫 作 DAG 图 (有 向 无 环 图 ) ， 然 后 计算 的 时 候 按 图 
索 驱 ， 这 样 就 有 了 方向 性 ， 进 而 有 了 优化 的 运算 路 径 , 减少 大 量 的 IO 读 取 操作 。 当 然 ， 
Spark 比 Hadoop 快 的 原因 还 有 很 多 ， 例 如 容错 机 制 和 高 效 可 靠 的 任务 调度 等 。 

(2) 易于 使 用 ,支持 多 语言 编程 。Spark 易 用 性 的 直接 表现 就 是 代码 量 少 ， 例 如 计算 同 
样 的 一 个 文件 中 有 多 少 个 单词 时 ，Spark 使 用 三 行 代码 即 可 完成 ， 如 下 所 示 。 


val file = sc.textFile("hdfs://...") 


val counts = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey( + ) 


counts.saveAsTextFile(“hdfs://...") 
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而 完成 同样 的 工作 Hadoop 却 需要 60 多 行 代 码 〈 如 下 所 示 ) ， 两 相对 比 ，Spark 可 以 让 
开发 者 节省 大 量 的 开发 时 间 ， 并 且 维 护 起 来 也 方便 很 多 。 


18 package org.apache.hadoop.examples; 


19 

20> import java.io.IOException; > 
21 import java.util.StringTokenizer; 

22 

23 import org.apache.hadoop.conf.Configuration; 

[24 import org.apache.hadoop.fs.Path; 

25 import org.apache.hadoop.io.IntWritable; 

26 import org.apache.hadoop.io.Text; 

27 import org.apache.hadoop.mapreduce. Job; 

28 import org.apache.hadoop.mapreduce.Mapper; 

29 import org.apache.hadoop.mapreduce.Reducer; 

30 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
31 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
32 import org.apache.hadoop.util.GenericOptionsParser; 


33 

34 public class WordCount { 

35 

36° public static class TokenizerMapper 

37 extends Mapper<Object, Text, Text, IntWritable>{ 

38 

39 private final static IntWritable one = new IntWritable(1); 
40 private Text word = new Text(); 

41 

429 public void map(Object key, Text value, Context context 
43 ) throws IOException, InterruptedException { 
44 StringTokenizer itr = new Stringlokenizer(value.toString()); 
45 while (itr.hasMoreTokens()) { 

46 word. set(itr.nextToken()); 

47 context.write(word, one); 

48 } 

49 } 

50 } 

51 

52^ public static class IntSumReducer 

53 extends Reducer«Text,IntWritable,Text,IntWritable» { 

54 private IntWritable result = new IntWritable(); 

55 

569 public void reduce(Text key, Iterable<IntWritable> values, 

57 Context context 

58 ) throws IOException, InterruptedException { 
59 int sum = 9; 

60 for (IntWritable val : values) { 

61 sum += val.get(); 

62 

63 result.set(sum); 

64 context.write(key, result); 

65 } 

66 } 

67 

68° public static void main(String[] args) throws Exception { 

69 Configuration conf = new Configuration(); 

70 String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs(); 
71 if (otherArgs.length « 2) { 

72 System.err.println("Usage: wordcount «in» [<in>...] «out»"); 
73 System.exit(2); 

74 ) 

75 Job job - new Job(conf, "word count"); 

76 job.setJarByClass(WordCount.class); 

77 job.setMapperClass(TokenizerMapper.class); 

78 job.setCombinerClass(IntSumReducer.class); 


79 job.setReducerClass(IntSumReducer.class) ; 
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80 job.setOutputKeyClass(Text.class); 

81 job.setOutputValueClass(IntWritable.class); 

82 for (int i = 0; i < otherArgs.length - 1; ++i) { 

83 FileInputFormat.addInputPath(job, new Path(otherArgs[i])); 
84 } 

85 FileOutputFormat.setOutputPath( job, 

86 new Path(otherArgs[otherArgs.length - 1])); 

87 System. exit(job.waitForCompletion(true) ? 0 : 1); 

88 


同时 ，Spark 本 身 是 用 Scala 语言 写 的 ， 但 它 也 提供 了 多 语言 (包括 Java. Scala, Py- 
thon) 的 API， 能 够 快速 实现 应 用 。 安 装 部 署 也 无 须 复 杂 的 配置 ， 使 用 API 可 以 轻松 地 构建 
分 布 式 应 用 程序 。 

(3) WAER. Spark 提供 了 一 个 强大 的 技术 堆栈 ， 是 一 个 可 以 进行 流 式 处 理 、 机 器 学 
习 、 即 时 查询 、 图 处 理 等 多 种 无 缝 大 数据 处 理 连接 的 
计算 平台 ， 如 图 1-2 FRAN. Spark 之 所 以 可 以 实现 这 GraphX 
些 通 用 性 是 源 于 它 的 RDD (弹性 分 布 式 数据 集 )， (graph) 
Spark 提供 了 各 种 不 同 的 RDD 对 不 同 的 数据 进行 处 
理 。 而 Hadoop 的 技术 堆栈 则 相对 独立 也 较为 复杂 ， 
各 个 框架 都 是 独立 的 系统 ， 给 集成 带 来 了 很 大 的 复杂 
性 和 不 确定 性 。 

(4) 可 以 与 Hadoop 和 已 存 的 Hadoop 数据 集成 。Spark 可 以 独立 运行 ， 除 了 可 以 运行 在 
Mesos 、Yarn 等 集群 资源 管理 系统 之 外 ， 它 还 可 以 读 取 已 有 的 任何 Hadoop 数据 ， 这 是 个 非 
党 大 的 优势 ， 它 可 以 运行 在 任何 Hadoop 数据 源 上 ， 如 Hive, HBase, HDFS 等 。 同 时 如 果 你 
已 经 安装 了 第 二 代 的 Hadoop 集群 ， 即 可 以 直接 运行 Spark。 图 1-3 展示 了 一 些 可 以 与 Spark 


集成 的 框架 。 
Soak 


cassandra 


图 1-2 Spark 的 技术 堆栈 
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图 1-3 Spark 支持 的 技术 框架 


(5) 活跃 和 迅速 壮大 的 社区 。Spark 起 源 于 2009 年 ， 至 今 已 有 超过 50 个 机 构 、250 个 
工程 师 贡献 过 代码 。Spark 的 创始 团队 成 立 了 Databricks 公司 ， 全 力 支持 Spark 的 生态 发 展 。 
同时 Spark 非常 重视 社区 活动 ， 组 织 也 极为 规范 ， 定 期 或 不 定期 地 举行 与 Spark 相关 的 会 议 。 
BA Spark 的 发 展 势头 日 趋 迅 猛 ， 它 已 被 广泛 应 用 于 Yahoo! 、Twitter、 阿 里 巴巴 、 百 度 、 网 
易 、 英 特 尔 、 腾 讯 等 各 大 公司 的 生产 环境 中 。 
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Spark 生态 系统 BDAS 

BDAS (the Berkeley Data Analytics Stack) 的 全 称 是 们 克利 数据 分 析 栈 ， 是 AMP KRZ 
打造 的 一 个 开源 的 大 数据 处 理 一 体 化 的 技术 生态 系统 (如 图 1-4 所 示 )。 到 目前 ， 这 个 技术 
生态 系统 已 经 包含 多 个 子 项 目 ， 其 核心 框架 是 Spark Core， 同 时 还 涵盖 了 文 持 结构 化 数据 
SQL 查询 与 分 析 的 Spark SQL， 提 供 机 顺 学 习 功 能 的 底层 分 布 式 机 需 学 习 库 MLlib ， 并 行 图 计 
算 框架 GraphX， 流 计算 框架 Spark Streaming， 采 样 近似 查询 引擎 BlinkDB， 内 存 分 布 式 文件 
系统 Tachyon ， 分 布 式 文件 系统 HDFS、S3 ,集群 资 源 管理 框架 Mesos, Yarn 等 子 项 目 。 正 是 
这 个 生态 系统 ， 让 Spark 可 以 实现 “One stack to rule them all”， 它 既 可 以 完成 批 处 理 也 可 以 
从 事 流 计算 ， 从 而 避免 了 去 实现 两 份 逻 辑 代 码 。 


BlinkDB 
SQL w/bounded errors/resoonse times 


GraphX SparkSQL 
ES SQL API 


Hive Storm MPI 


Spark 


HDFS, $3, GlusterFS 


Mesos〈 多 租户 模式 的 集群 资源 管理 器 ) 


图 1-4 Spark 技术 生态 系统 


Spark Core E 


Spark Core 是 整个 BDAS 生态 圈 的 核心 组 件 ， 是 一 个 分 布 式 大 数据 人 处理 框架 ， 包 含 Spark 
的 基本 功能 。 它 不 仅 比 MapReduce 计算 速度 快 好 多 倍 ， 还 提供 了 比 MapReduce 更 为 丰富 的 
JETEPRZM, UH filter, union, sortsByKey 等 。 它 有 一 些 核心 组 件 ， 比 如 RDD, DAGScheduler, 
TaskScheduler, Stage 等 ， 而 整个 Spark 的 理论 基石 就 是 RDD (弹性 分 布 式 数据 集 )， 通 过 
RDD 实现 了 应 用 任务 调度 、RPC、 序 列 化 和 压缩 ， 并 为 运行 在 其 上 的 上 层 子 框架 提供 API. 

Spark 将 数据 在 分 布 式 环境 下 分 区 ， 然 后 将 作业 转化 为 有 问 无 环 图 (DAG), 减少 了 多 
次 计算 之 间 中 间 结 果 IO 开销， 并 分 阶段 进行 DAG 的 调度 和 任务 的 分 布 式 并 行 处 理 。Spark 
采用 容错 的 、 高 可 伸缩 性 的 AKKA 作为 通信 框架 ,减少 了 多 线程 并 发 运行 所 珊 来 的 不 确定 
性 。 还 采用 多 线程 池 模 型 来 减少 task 的 启动 开销 。 
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RDD 可 以 想象 为 一 个 个 的 partition， 退 一 步 也 可 理解 为 一 个 非常 大 的 List (1,2, 7 ; 
9) ， 使 用 三 个 Partition 分 别 保存 这 个 List 的 3 个 元 素 ， 而 每 个 partition (或 者 split) 都 会 有 
一 个 函数 去 计算 。 同 时 ，RDD 之 间 是 可 以 相互 依赖 
的 ， 一 旦 有 RDD 的 分 区 数据 丢 了 ， 能 通过 父 RDD 
自动 重建 ， 保 证 了 容错 性 。 罕 依赖 (Narrow Depend- 
ency) 和 宽 依 赖 (Wide Dependency) 是 Spark rp 5j 
外 两 个 重要 的 概念 (如 图 1-5 所 示 )。 对 比 后 者 ， 


Narrow Dependency Wide Dependency 
Narrow Dependency 无 论 是 在 从 容错 性 上 ， 还 是 在 执 CARS ICI) ( 宽 依赖 ) 
行 效率 上 都 占有 优势 。 图 1-5 RDD 依赖 图 


然后 ， 可 以 为 Key - value 型 的 RDD 指定 parti- 
tioner 组 件 ，RDD 中 的 每 个 分 区 也 都 有 各 上 自 的 preferred location (首选 地 点 )， 这 个 理念 存在 
于 当下 的 众多 分 布 式 系统 中 ， 也 就 是 计算 跟着 数据 走 。 通 常情 况 下 ， 转 移 计 算 的 时 间 远 远 小 
于 转移 数据 的 时 间 。 对 于 Hadoop 来 说 ， 因 为 数据 在 磁盘 中 ， 磁 盘 本 地 性 通常 达到 了 顶峰 ， 
而 对 于 Spark 来 讲 ， 因 为 数据 可 以 保存 在 内 存 中 ， 所 以 内 存 本 地 性 才 具 备 最 高 优先 级 。 


12.2 


Spark SQL 


Spark SQL 是 Spark 1. 0. 0 新 推出 的 基于 Catalyst (EAA TA Gas, EH SchemaRDD 
来 操作 SQL 的 SQL 技术 ， 这 个 功能 类 似 于 Shark ， 但 是 比 Shark 文 持 更 多 的 查询 表达 式 。 用 
户 可 以 在 Spark 上 直接 书写 SQL， 相当 于 为 Spark 扩充 了 一 套 SQL 操作 ， 这 无 疑 更 加 丰富 了 
Spark 的 功能 ， 同 时 Spark SQL 支持 Hive, JSON, HDFS, Parquet 等 持久 化 存储 (如 图 1-6 
所 示 ) ， 为 其 发 展 黄 定 广阔 的 空间 。 


@ python 


Spa SQL 


H SchemaRDD 


图 1-6 Spark SQL 支持 的 数据 类 型 


172.5 Spark Streaming 


Spark Streaming 是 一 个 对 实时 数据 流 进 行 高 通 量 、 容 错 处 理 的 流 式 处 理 系统 ， 可 以 对 多 
种 数据 源 (如 Kafka, Flume, Twitter, Zero 和 TCP 套 接 字 ) 进行 类 似 map, reduce, join, 
window 等 复杂 操作 ， 并 将 结果 保存 到 外 部 文件 系统 、 数 据 库 或 应 用 到 实时 仪表 盘 〈 如 图 1-7 
BIN) o 

Spark Streaming 是 大 规模 流 式 数据 处 理 的 “新 贯 ”， 基 本 原理 是 将 流 式 计算 分 解 成 一 系 
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[d 1-7 Spark Streaming 的 输入 输出 类 型 


列 短小 的 批 处 理 作 业 。 这 里 的 批 处 理 引擎 是 Spark ， 也 就 是 把 Spark Streaming 的 输入 数据 按 
HR batch size (如 1s) 分 成 一 段 一 段 的 数据 ， 每 一 段 数据 都 转换 成 Spark 中 的 RDD， 然 后 将 
Spark Streaming 中 对 DStream 的 Transformation 操作 变 为 针对 Spark 中 对 RDD 的 Transformation 
操作 ， 将 RDD 经 过 操作 变 成 中 间 结 果 保 存在 内 存 中 。 整 个 流 式 计算 根据 业务 的 需求 可 以 对 
中 间 的 结果 进行 全 加 ， 或 者 存储 到 外 部 设备 。 与 男 一 种 流 处 理 框架 Storm 相 比 ， 其 否 吐 量 远 
远 高 于 Storm。 同 时 相 比 基于 Record 的 Storm, RDD 数据 集 更 容易 做 到 高 效 的 容错 处 理 。 


1. 2.4 Spark GraphX Y 


GraphX 的 核心 抽象 是 Resilient Distributed Property Graph ,一 种 点 和 边 都 带 有 属性 的 有 问 
多 重 图 。 它 扩展 了 Spark RDD 的 抽象 ， 有 Table 和 Graph 两 种 视图 ， 只 需要 一 份 物理 存储 。 
两 种 视图 都 有 上 自己 独 有 的 操作 符 ， 从 而 提高 了 操作 灵活 性 和 执行 效率 。 

GraphX 是 基于 BSP 模型 ， 在 Spark 之 上 封装 类 似 Pregel 的 接口 ， 进 行 大 规模 同步 全 局 
的 图 计算 ， 尤 其 是 当 用 户 进 行 多 轮 迭 代 时 ， 基 于 Spark 内 存 计算 的 优势 尤为 明显 。GraphX 
的 架构 可 以 参考 图 1-8 〈 将 在 后 续 草 节 详 细 介绍 ) 。 


m ConnectedCom StronglyConnected 


SIR 
GraphOps/ pe———————-—. Graph: ees Sse sess GraphImpl 
实现 VertexRDD EdgeRDD RDD[EdgeTriplet] 


PartitionStrategy EdgeTriplet 
m te EdeePartiti Routing Table Replicated Vertex 
MessageToPartition VertexPartition gePartition Partition View 


图 1-8 Spark GraphX 的 架构 图 


S MLlib i 


MLlib (Machine Learning lib) 是 Spark 对 第 用 的 机 融 学 习 算 法 的 实现 库 ， 同 时 包括 相关 


e 
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的 测试 和 数据 生成 僚 。Spark 的 设计 初衷 就 是 为 了 文 持 一 些 友 代 的 工作 ， 这 正好 符合 很 多 机 
名 学 习 算 法 的 特点 。MLlib 目前 支持 四 种 篆 见 的 机 需 学 习 问 题 : 分 类 、 回 归 、 聚 类 和 协同 
WUE 6 


Tachyon 是 一 个 高 容错 、 高 性 能 的 开源 的 分 布 式 内 存 文件 系统 ， 可 以 理解 为 内 存 中 的 
HDFS。 人 允许 文件 以 内 存 的 速度 在 集群 框架 中 进行 可 靠 的 共享 。Tachyon 工作 集 文件 缓存 在 内 
存 中 ， 并 且 让 不 同 的 Jobs/Queries 以 及 框架 都 能 以 内 存 的 速度 来 访问 缓存 文件 。 因 此 ，Tach- 
yon 可 以 减少 那些 需要 经 常 使 用 的 数据 集 通 过 访问 磁盘 来 获得 的 次 数 。Tachyon 兼容 Hadoop, 
现 有 的 Spark 和 MapReduce 不 需要 任何 修改 即 可 运行 ，Tachyon 与 大 数据 构建 的 技术 堆栈 如 


图 1-9 BRAN. 
HHHH 
O O 
AAEE 


图 1-9 Tachyon 与 大 数据 构建 的 技术 堆栈 


1. 2. 7 BlinkDB 


BlinkDB 是 一 个 用 于 在 海量 数据 上 进行 交互 式 SQL 查询 的 大 规模 并 行 查询 引擎 。 它 允许 
用 户 通过 权衡 数据 精度 来 提升 查询 啊 应 时 间 ， 其 数据 的 精度 被 控制 在 允许 的 误差 范围 内 。 为 
了 达到 这 个 目标 ，BlinkDB 的 核心 思想 是 : 通过 一 个 自 适 应 优化 框架 ， 随 着 时 间 的 推移 ， 从 
原始 数据 建立 并 维护 一 组 多 维 样本 ; 通过 一 个 动态 样本 选择 策略 ， 选 择 一 个 适度 大 小 的 示 
例 ， 然 后 基于 查询 的 准确 性 和 响应 时 间 满 足 用 户 查 询 需 求 。 

BlinkDB 通过 独特 的 采用 优化 技术 实现 了 比 Hive 快 百倍 的 速度 ， 同 时 能 把 误差 控制 在 
2% — 1096, 

至 此 ， 了 解 了 Spark 的 概念 和 生态 系统 后 ， 我 们 接 下 来 正式 进入 Spark 技术 的 学 习 。 


1. Spark 的 “One stack to rule them all ”思想 指导 下 的 一 栈 式 解 决 方案 有 哪些 优势 ? 
2. Spark 的 生态 系统 虱 包 括 哪 些 技术 框架 ? 


SS ”Spark 安 装 和 集群 部 署 


2.1 搭建 Hadoop 分 布 式 集群 
2.2 Spark 安 疾 和 集群 部 署 
2.3 测试 Spark 集群 
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Spark 在 生产 环境 中 主要 是 部 署 在 Linux 的 环境 下 ， 由 于 我 们 在 Spark 集群 中 会 用 到 Ha- 
doop 集群 的 HDFS (Hadoop Distributed File System) 文件 系统 ， 所 以 在 部 署 Spark 集群 之 前 会 
首先 部 四 Hadoop 集群 。 笔 者 是 在 Windows 8 上 部 署 Hadoop 集群 和 Spark 集群 的 ， 而 在 部 署 
Hadoop 集群 和 Spark 集群 之 前 ， 需 要 安装 VMWare 虚拟 机 和 Ubuntu 的 ISO 镜像 文件 。 

考虑 到 我 们 学 习 时 的 计算 机 硬件 条 件 所 限 ， 在 这 里 我 们 用 三 台 机 需 来 搭建 Hadoop 集群 和 
Spark 集群 ， 其 中 一 台 机 器 作 为 Master 结 点 ( 主 结 点 )， 男 外 两 台 作 为 Slaves 结 点 (从 结 点 )。 


| 搭建 Hadoop 分 布 式 集群 


Hadoop 是 一 个 开发 和 运行 处 理 大 规模 数据 的 软件 平台 ,是 Apache 的 一 个 用 Java 语言 实 
现 的 开源 软件 框架 ， 用 于 实现 在 大 量 计算 机 组 成 的 集群 中 对 海量 数据 进行 分 布 式 计算 。Ha- 
doop 框 染 中 最 核心 的 设计 就 是 : HDFS 和 MapReduce, HDFS 提供 了 海量 数据 的 存储 能 
MapReduce 提供 了 对 数据 的 计算 能 力 。 这 里 使 用 的 计算 框 涤 是 Spark 而 不 是 Hadoop 的 Ma- 
pReduce， 但 是 我 们 要 用 到 Hadoop 的 HDFS 文件 系统 ， 所 以 首先 应 搭建 Hadoop 集群 。 


2.1.1 安装 VMware 虚拟 机 


VMWare 虚拟 机 可 以 从 网 上 直接 下 载 ， 下 载 地 址 是 : https://my. vmware. com/cn/web/ 
vmware/ info/slug/desktop_end_user_computing/ vmware _workstation/11_0, 76 473 E 1# JH ÉS hi 
本 是 VMware Workstation 10. 0.0 for Windows, 22% VMWare 时 需要 序列 码 ， 读 者 可 以 自己 从 
Mj EP. 

单 击 下 载 好 的 VMWare 可 执行 文件 ， 按 照 默认 的 流程 一 步 步 安装 即 可 。 在 安装 的 时 候 有 
个 对 话 框 显示 “Enter License Key”， 此 时 需要 输入 从 网 络 上 下 载 的 对 应 VMWare 版 本 的 产品 
序列 码 。 安 装 完 成 后 ， 打 开 VMWare 虚拟 机 ， 显 示 的 主 界面 如 图 2-1 所 示 。 


文件 (F) 编辑 (日 ”查看 (V) WLM) 选项 卡 (0) 帮助 (H) 
四 | 加 | E 


E 


x 
主页 


vmware . LJ | 
li SparkMaster Workstation 1O 


£i SparkWorker1 
£i SparkWorker2 


| 连接 远程 服务 器 
创建 新 的 虚拟 机 a TERRASSE LESEREN. 


局 虚拟 化 物理 机 
| 


[ | 从 现 有 物理 机 创建 虚拟 机 .。 


EE (Dy seus 
] tZ 检查 VMware Workstation 的 软件 更 新 。 


图 2-1 VMWare 虚拟 机 主 界面 


2. 1.2 
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安装 Ubuntu 的 镜像 文件 


Ubuntu 系统 是 一 款 优秀 的 、 基 于 GNU/Linux 平台 的 桌面 系统 ， 是 搭建 Hadoop 集群 常用 O) 
的 操作 系统 之 一 。Ubuntu 的 ISO 镜像 文件 下 载 地 址 为 : http://www. ubuntu. org. cn/down- 


load/alternative -downloads。 下 [ 面 进行 Ubuntu 的 安装 。 


(1) 打开 自己 的 VMware Workstation 10 虚拟 机 ， 进 入 主页 ， 然 后 点 击 【 创 建新 的 虚拟 


BL]. HUE 2-2 fra. 


vmware 


Workstation 1O 


(2) 然后 需要 选择 一 个 适合 类 


TAR o 


连接 远程 服务 器 
在 远程 服务 器 上 查看 和 管理 虚拟 机 。 


ES 


SQ EENEN 
| Ing 从 现 有 物理 机 创建 虚拟 机 。 


© 


创建 新 的 虚拟 机 
qu 
E 打开 虚拟 机 


图 2-2 创建 新 的 虚拟 机 


软件 更 新 
检查 VMware Workstation 的 软件 更 新 。 


型 的 配置 ， 选 择 【 典 型 】]， 然 后 点 击 【 下 一 步 )} ， 如 图 2-3 


(3) 这 个 时 候 ， 系 统 会 让 我 们 选择 光盘 所 在 的 位 置 ， 选 择 第 三 项 【 稍 后 安装 操作 系 


统 】， 之 后 点 击 【 下 一 步 ] ， 如 图 2-4 所 示 。 
新 建 虚拟 机 向 导 新 建 虚拟 机 向 导 EH 
安装 寡 户 机 操作 系统 
虚拟 机 如 同 物理 机 ， 需 要 操作 系统 。 您 将 如 何 安装 寡 户 机 操作 系统 ? 
欢迎 使 用 新 建 虚拟 机 向 导 
安装 来 源 : 
〇 安装 程序 光盘 (D): 
trace A AER b 
您 希望 使 用 什么 类 型 的 配置 ? A DVD RW BH (D:) 
(e) 典型 (推荐 )(T) 
通过 几 个 简单 的 步骤 创建 Workstation 
10.0 虚拟 机 。 Cw... b. 
vmware C) 安装 程序 光盘 映像 文件 (so)(M): 
Workstation O 自 定 义 ( 高 级 )(C) E:\#23=Ubuntu\ubuntu-14.04-desktop-amd64.iso 浏览 (R),.. 
创建 带 有 SCSI 控制 器 类 型 、 虚 拟 磁盘 类 
型 以 及 与 旧版 VMware 产品 兼容 性 等 高 
级 选项 的 虚拟 机 。 
| (€) 稍 后 安装 操作 系统 (5)。 
创建 的 虚拟 机 将 包 合 一 个 空白 硬盘 。 
< 上 一 步 (B) | 下 一 步 (N) > 取消 | 帮助 | | < 上 一步 (9) | | 下 一 步 N)> | | XB | 


图 2-3 虚拟 机 类 型 配置 


图 2-4 选择 光盘 所 在 的 位 置 
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(4) 然后 根据 你 需要 安装 的 虚拟 机 类 型 选择 合适 的 客户 机 操作 系统 与 版 本 ， 如 果 是 32 
位 的 ， 选择 【Linux】-【 Ubuntu】; 如 果 是 64 位 的 ， 选 择 【Linux】- [Ubuntu 64 位 】。 然 后 点 
Ei iul 2-5 Bra. 

(5) 这 里 可 以 为 我 们 的 虚拟 机 取 名 字 ， 选 择 其 存放 的 位 置 ， 然后 点 击 “ 下 一 步 "， 如 
图 2-6 Bran, 


新 建 虚 拟 机 向 导 E 新 建 虚 拟 机 向 导 EJ 
选择 客户 机 操作 系统 命名 虚拟 机 
此 虚拟 机 中 将 实 装 哪 种 操作 系统 ? 您 要 为 此 虚拟 机 使 用 什么 名 称 ? 
客户 机 操作 系统 EWANSERV): 
© Microsoft Windows(W) | Ubuntu 
@ Linux(L) 
© Novel NetWare(E) 位 置 (L): 
5 ne oe | C:\Users\Jack\Documents\Virtual Machines\Ubuntu 
O 〇 其 他 (D) 在 "编辑 ">" 首 选项 "中 可 更 改 默认 位 置 。 
版 本 (V) 
Ubuntu y] 
帮助 | < 上 一 步 (B) | | 下 一 步 (N) > | | RA < 上 一 步 (B) | | 下 一 步 (N) > 取消 
图 2-5 选择 客户 机 操作 系统 图 2-6 为 虚拟 机 取 和 名字 


(6) 之 后 的 步 又 都 可 以 继续 选择 【下 一 步 】 ， 最 后 点 击 【 完 成 ] ， 如 图 2-7 所 示 。 
(7) 单 击 我 们 新 创建 的 虚拟 机 ， 找 到 【设备 】， 然 后 选中 【CDZDVYD (IDE)】， 在 右 侧 
选择 好 你 的 Ubuntu 系统 存放 的 位 置 ， 然 后 点 击 【 确 定 】， 如 图 2-8、 图 2-9 所 示 。 


新 建 虚拟 机 向 导 EA 


已 准备 好 创建 虚拟 机 
单 击 "完成 "创建 虚拟 机 。 然 后 可 以 安装 Ubuntus 


将 使 用 下 列 设置 创建 虚拟 机 : 
SW Ubuntu 
位 置 : C:\Users\Jack\Documents\Virtual Machines\Ubuntu 
版 本 : Workstation 10.0 
操作 系统 : Ubuntu 
库 x| 
mA: 20 GB, 拆 分 会 主页 x | ubuntu x 
网 络 适 配器 : NAT El 我 的 计算 机 vmware i 
其 他 设备 : CD/DVD, USB 控制 器 , 打印 机 , 声卡 iyi a WOo rkstatio nl] O 
par orker 


& SparkWorker2 


自 定义 硬件 (C)..… ee 


新 创建 的 虚拟 机 。 


图 2-7 准备 创建 虚拟 机 图 2-8 新 创建 的 虚拟 机 


网 网 络 适配器 
USB 控制 
ORE 

TT EDI 


摘要 
2 GB 
1 

20 GB 


正在 使 用 文件 EMSoftwarelubuntu... 


自动 检测 
NAT 
存在 
自动 检测 
存在 
自动 检测 


虚拟 机 设置 


设备 状态 
E 已 连接 (C) 


启动 时 连接 (0) 


连接 


O 使 用 物理 驱动 器 (P): 


自动 检测 


图 使 用 ISO 映像 文件 (M): 


E:\Software\ubuntu-12.10-des v| | 浏览 (B)... 


Spark 安 闭 和 集群 部 署 


添加 (A).… 移 除 (R) 


高 级 (V) 


图 2-9 虚拟 机 映像 文件 设置 


(8) 在 图 2-10 左 侧 点 击 【 内 存 】， 此 时 可 以 设置 虚拟 机 的 内 存 ， 这 里 笔者 设置 为 2CB， 
然后 点 击 【 确 定 】 完 成 设置 。 单 击 图 2-11 的 “开启 此 虚拟 机 ”， 正 式 进 入 Ubuntu 系统 的 


虚拟 机 设置 


硬盘 (SCSI) 

® CD/DVD (IDE) 
ake 

LIE SET: 
USB 控制 器 


摘要 
2 GB 
1 

20 GB 


自动 检测 
NAT 
存在 
自动 检测 
存在 
自动 检测 


内 存 


指定 分 配给 此 虚拟 机 的 内 存量 。 内 存 太 小 必须 为 4 MB 
的 信 数 。 


正在 使 用 文件 ESoftware ubuntu... 此 虚拟 机 的 内 存 (M): 2048 [=| MB 
64 GB - 
32 GB 
16 GB 
pot m 最 大 建议 内 存 
4GB (超出 此 大 小 可 能 
aa 
1GB 
512 MB Ex] 建议 内 存 
236MB 1024 MB 
128 MB 
64MB - 口 建议 的 最 小 寡 户 机 操作 系统 内 存 
32 MB 512 MB 
16 MB 
8 MB 
4 MB 


BD 


确定 取消 || 帮助 | 
图 2-10 虚拟 机 内 存 设置 
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5] SparkMaster X | 


(9 SparkMaster 
也 开启 此 虚拟 机 
可 编辑 点 拟 机 设置 
Gy Huc UL 
~ 设备 
BAF 2 GB 
(2488 
坚硬 盘 (SCS 20 GB 
*jCD/DVD (IDE ”正在 使 用 文件 E\S.… 
Bs 自动 检测 


GRAEME NAT 
USB 控制 器 存在 


OE 自动 检测 

HEN 存在 

Bins 自动 检测 
~ 描述 

在 此 处 键入 对 该 虚拟 机 的 摘 述 。 


图 2-11 开启 虚拟 机 


(9) 进入 欢迎 页 面 之 后 ， 我 们 点 击 【安装 Ubuntu Kylin】， 如 果 是 Ubuntu 原版 的 话 ， 这 
里 就 是 【安装 Ubuntu】， 如 图 2-12 所 示 。 


x 安装 (作为 超级 用 户 ) 


欢迎 


ase 
TX) 


Asturianu 
Bahasa Indonesia 
Bosanski 

Català 

Čeština 


Cymraeg 
Dansk 试用 Ubuntu Kylin 安装 Ubuntu Kylin 
Deutsch 


Eesti 
English 


Espanol WESERRERE ， 您 可 以 与 现 有 系统 并 存 (SENAI ubuntu Kylin 安装 到 
Esperanto 您 的 电脑 上 上 。 此 过 程 无 需 攻 时 太 久 ，。 
Euskara 


您 可 以 直接 从 此 CD 3$ i£ ubuntu Kylin ,而 不 用 对 您 的 电脑 作 任 何 更 改 ， 
Francais 您 可 以 网 读 一 下 改行 注 记 
图 2-12 安装 Ubuntu 


(10) 然后 我 们 点 击 【 继 续 】， 如 图 2-13 所 示 。 这 里 不 做 任何 选择 ， 如 果 选 择 的 话 , 安 
装 速度 将 非常 慢 。 
(11) 选择 好 你 所 在 的 时 区 ， 然 后 点 击 【 继 续 】， 如 图 2-14 所 示 。 


o € € O9 9 e e e © € € © 


A 一 ~z < 
96000606€06€06€9€*-*-:.0.006009000( 


T1111T eos... oo XLIII Jata = 5 > py- 
NES... EET 609) --.. s Spark 安 装 和 集群 部 嗜 


准备 安装 Ubuntu Kylin 


要 获得 最 佳 的 体验 ， 请 确定 这 人 台 计 算 机 : 


Jf 有 至 少 80GB 可 用 的 磁盘 空间 


4 已 经 连接 到 互联 网 


门 安装 中 下 载 更 新 


Ubuntu Kylin 使 用 第 三 方 软件 播放 Flash、MP3 和 其 他 媒体 ， 并 更 动 其 吾 图 形 和 无 线 网 络 硬件 ， 其 中 有 叶 些 软件 责问 
的 。 这 些 软 件 受 到 其 文档 中 协议 条 圾 的 约束。 


门 安装 这 个 第 三 方 软件 
Fluendo MP3 IAFFE & Fraunhofer IIS 10 Technicolor SA AHRI MPEG Layer-3 SSNS IER, 


| aio || mi | mu 
图 2-13 准备 安装 Ubuntu Kylin 


您 在 什么 地 方 ? 


&iR(B) 继续 


图 2-14 时 区 选择 


(12) 选择 好 你 的 键盘 布局 ， 我 们 这 里 选择 【 Chinese】-【 Chinese】， 然 后 点 击 【 继 续 】， 
如 图 2-15 所 示 。 

(13) 输入 想 要 为 你 的 Ubuntu 操作 系统 起 的 名 字 以 及 密码 等 相关 信息 ， 点 击 【 继续 】， 
进入 自动 安装 过 程 ， 如 图 2-16 所 示 。 

(14) 安装 完毕 ， 我 们 重启 就 可 以 了 。 然 后 我 们 点 击 【 现在 重启 】]， 如 图 2-17 所 示 。 

(15) 为 了 简化 权限 等 问题 ， 需 要 以 root 用 户 的 映 份 登录 使 用 Ubuntu 系统 ， 而 在 默认 的 
情况 下 Ubuntu 没有 开局 root 用 户 ， 这 里 需要 做 相关 设置 。 在 命令 终端 输入 “sudo-s” 命 令 ， 


, 7$. 
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mig) || mu 


键盘 布局 
选择 您 的 键 伪 布 局 : 
Bosnian 
Braille | Chinese - Tibetan 
Bulgarian Chinese - Tibetan (with ASCII numerals) 
Burmese Chinese - Uyghur 
chinese | 
Croatian 
Czech 
Danish 
Dhivehi 
在 这 里 输入 以 测试 您 的 键盘 
探测 键盘 布局 | 
图 2-15 键盘 布局 选择 
您 是 谁 ? 
您 的 姓名 : 
您 的 计算 机 名 : 
Stir NRAN EENE, 
选择 一 个 下 户 名 | 
选择 一 个 密码 ; 
确认 您 的 密码 : 
O 自动 登录 
O 登录 时 需要 束 码 
O 加 密 我 的 主 目录 


图 2-16 用 户 名 和 密码 设置 


x RRA (作为 超 航 用 户 ) 


m 安装 完毕 。 SEREENBUOTCTNUUSmmE€ÓRMmE IR, 


图 2-17 重启 系统 


然后 输入 密码 ， 进 入 root 用 户 权 限 模 式 。 在 命令 终端 输入 “vim /etc/lightdm/lightdm. conf" 


命令 ， 修 改 lightdm. conf 的 文件 内 容 为 : 


root(bSparkMaster: ~ 
fiseatDefaults] 
user-session=ubuntu 
greeter-session=unity-greeter 


greeter-show-manual-login-true Y i 
allow-guest=false 


保存 文件 ， 然 后 退出 。 在 命令 终端 输入 : “sudo passwd root”， 然 后 按 (Enter) 键 ， 按 要 
求 设 置 好 root 用 户 的 密码 ， 最 后 在 命令 行 输入 :“reboot -h now”， 重 新 启动 系统 。 在 系统 界面 
单 击 “Login”， 输 入 “root” 账 户 ， 然 后 输入 密码 ， 此 时 已 经 使 用 root 账户 登录 Ubuntu 系统 。 


(1) 从 Oracle 的 官网 下 载 相应 的 JDK 版 本 ， 最 好 是 JDK1.6 以 后 的 版 本 ,笔者 下 载 的 是 
JDK1.7.0_67， 然 后 对 下 载 好 的 JDK 进行 解压 ， 解 压 后 的 文件 最 好 放 在 自己 创建 的 目录 下 。 


root(üSparkMaster:/usr/lib/javas& ls -lr 

total 8 

drwxr-xr-x 8 root root 4096 Oct 7 2014 jdki.8.0 20 
drwxr-xr-x 8 uucp 143 4096 Jul 26 2014 jdk1.7.0 67 
rootüSparkMaster:/usr/lib/javas J Pd 


这 里 我 们 选择 安装 jdk1.7 


(2) 修改 环境 变量 ， 在 Ubuntu 的 shell 命 vim ~/. bashre 进入 配置 文件 ， 把 
JDK 的 环境 变量 加 入 其 "m 保存 并 退出 。 然 后 在 命令 终端 输入 : source ~/. bashre 使 配置 文 
件 的 修改 生效 。 


# enable programmable completion features (you don't need to enable 
# this, if it's already enabled in /etc/bash.bashrc and /etc/profile 
# sources /etc/bash.bashrc). 

#if [ -f /etc/bash completion ] && ! shopt -oq posix; then 

# . /etc/bash completion 

ufi 


export JAVA HOME-/usr/lib/java/jdk1.7.0 67 


export JRE HOME-S(JAVA HOME) /jre 


(3) 我 们 可 以 在 命令 终端 查看 刚刚 安装 的 JDK 版 本 ， 如 下 所 示 。 


rootüSparkMaster:/usr/lib/javas java -version 

java version "1.7.0 67" 

Java(TM) SE Runtime Environment (build 1.7.0 67-b01) 
Java HotSpot(TM) Client VM (build 24.65-b04, mixed mode) 


2 和 搭建 男 外 两 全 Ubuntu 系统 并 配置 SSH 免 密 码 登 录 


1. 4 VMWare 虚拟 机 上 搭建 另外 两 台 Ubuntu 系统 

fr VMWare 虚拟 机 搭建 男 外 两 台 Ubuntu 系统 的 步骤 与 前 面 搭建 第 一 台 系 统 相 同 ， 在 此 
不 再 详 谈 ， 需 要 注意 两 点 : 

(1) 为 了 简化 Hadoop 的 配置 ， 保 持 最 小 的 Hadoop 集群 ， 在 搭建 男 外 两 台 系 统 的 时 候 使 
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用 相同 的 root 超级 用 户 的 方式 登录 系统 。 

(2) JDK 可 以 直接 在 另外 两 台 机 需 上 直接 安装 ， 但 最 好 安装 在 和 第 一 合 机 器 相同 的 目录 
下 , 方便 管理 。 或 者 等 下 面 的 SSH 免 密码 登录 配置 好 后 ， 直 接 用 SSH 的 scp 命令 把 第 一 合 
Blas ERRAI IDK 复制 过 去 ， 同 时 要 配置 好 各 机 器 的 ~/. bashre 文件 。 

2. 配置 SSH 免 密 码 登 录 

SSH 为 Secure Shell 的 缩写 ， 即 安全 外 过 协议 ， 由 IETF 的 网 络 工 作 小 组 (Network Work- 
ing Group) 所 制定 。SSH 为 建立 在 应 用 层 和 传输 层 基础 上 的 安全 协议 ， 是 目前 较 可 靠 、 专 为 远程 
登录 会 话 和 其 他 网 络 服务 提供 安全 性 的 协议 。 利 用 SSH. 协议 可 以 有 效 防止 远程 管理 过 程 中 的 信息 
泄露 问题 。SSH 最 初 是 UNIX 系统 上 的 一 个 程序 ， 后 来 又 迅速 扩展 到 其 他 操作 平台 。SSH 在 正确 
使 用 时 可 弥补 网 络 中 的 漏洞 。SSH 客户 端 适用 于 多 种 平台 。 几 乎 所 有 UNIX 平台 一 一 包括 HP - 
UX, Linux, AIX, Solaris, Digital UNIX, 、Irix， 以 及 其 他 平台 ， 都 可 运行 SSH, 

Hadoop 的 Master 和 Slave 结 点 之 间 的 通信 ， 以 及 Spark 的 Master 和 Worker 结 点 之 间 的 通 
信 ， 都 是 通过 SSH 来 完成 的 。 我 们 不 希望 它们 之 间 每 次 通信 都 输入 一 次 密码 ， 所 以 需要 配 
置 SSH 免 密码 登录 。 

(1) 在 第 一 台 Ubuntu 的 命令 终端 ， 可 以 在 命令 终端 采用 “apt - get install ssh” 命令 完 
成 SSH 的 在 线 安装 。 安 装 完 成 后 ， 在 终端 输入 “vetevinit d/ssh start" 局 动 服务 。 


root@SparkMaster: /# /etc/init.d/ssh start 
Rather than invoking init scripts through /etc/init.d, use the service(8) 
utility, e.g. service ssh start 


(2) SSH EX Aa, Pm ERR XEoE,. AMAIA. Fea Aint A“ ssh 
-keygen -t rsa -p "^" " MO, 这 样 在 /root/. ssh 目录 下 生成 了 两 个 文件 : id_rsa Al id_ 
rsa. pub。 其 中 id_rsa AAG, id_rsa. pub 为 公 钥 ,我们 将 公 角 id_rsa. pub 追加 到 authorized_ 
keys 文件 中 ， 因 为 authorized_keys 用 于 保存 所 有 人 允许 以 当前 用 户 映 份 登录 到 ssh 客户 端 用 户 
的 公 钥 内 容 。 可 以 通过 “cat ~/. ssh/id_rsa. pub >> ~/. ssh/authorized_keys” 命 令 来 实现 。 

(3) 测试 SSH 能 和 否 免 密 码 登录 ， 在 命令 终端 输入 : “ssh localhost” ME, 下 面 的 提示 信 
A zs AE n] EA fe SEXES SSH, 


root@SparkMaster:~# ssh localhost 
Welcome to Ubuntu 12.10 (GNU/Linux 3.5.0-17-generic i686) 


(4) 按照 上 面 的 步骤 ， 在 第 二 、 三 台 机 器 上 的 命令 终端 执行 同样 的 命令 ， 在 各 上 自 的 / 
root/. ssh 目录 下 生成 各 自 的 私 铀 和 公 钥 (这 里 我 们 假设 1 ~3 台 机 器 的 名 字 分 别 为 Master, 
Slavel Slave2) 。 此 时 在 Slavel 结 点 上 执行 “scp id. rsa. pub root@ Master:/root/. ssh/id _ 
rsa. pub. slavel ”命令 ， 在 Slave2 结 点 的 终端 执行 “scp id_rsa. pub root@ Master ; /root/. ssh/id 
_rsa. pub. slave2” MS, WE% A IY id_rsa. pub 传 给 Master, TE Master 机 器 上 检查 Slavel 和 
Slave2 的 公 钥 是 否 复制 过 来 ， 此 时 发 现 Slavel 和 Slave2 结 点 的 公 钥 已 经 传输 过 来 。 


root@SparkMaster :~# cd /root/.ssh 
root@SparkMaster:~/.ssh# ls 
authorized keys id rsa id rsa.pub id_rsa.pub.Slavel id rsa.pub.Slave2 known_hosts 


(5) 在 Master 结 点 上 把 Slavel 和 Slave2 结 点 发 过 来 的 公 钥 都 追加 到 authorized. keys 文件 
里 ， 命 令 终 端 输入 :“cat id_rsa. pub. Slavel >> authorized. keys" jf "cat id, rsa. pub. Slave2 >> 
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authorized_keys” 。 
(6) 将 Master 结 点 的 公 钥 信息 authorized. keys 文件 复制 到 Slavel 和 Slave2 结 点 的 /root/ 
. ssh 目录 下 ，Master 结 点 的 命令 终端 输入 以 下 命令 : NN 
scp authorized. keys root@ Slavel :/root/. ssh/authorized, keys > 
scp authorized. keys root@ Slave2 :/root/. ssh/authorized_keys 
(7) 此 时 Master 结 点 通过 SSH 访问 Slavel 和 Slave2 28 RO AA Te RASS, 同样 地 ， EM 
Slavel 或 者 Slave2 通过 SSH 访问 其 他 两 个 结 点 也 不 需要 密码 了 。 


2.1.5 安装 Hadoop 和 搭建 Hadoop 分 布 式 集群 


1. 安装 Hadoop 

(1) 下 载 Hadoop (笔者 使 用 的 版 本 是 hadoop -2.4.1) ， 并 解压 到 目 己 创建 的 目录 下 。 
root@SparkMaster:/# cd /usr/local/hadoop 
root@SparkMaster:/usr/local/hadoop# ls -lr 
total 8 


drwxr-xr-x 12 root root 4096 Oct 7 2014 | Ww 
drwxr-xr-x 12 67974 users 4096 Aug 11 2014 hadoop-2.2.0 


(2) 在 /hadoop - 2. 4. 1/etc/hadoop/hadoop - env. sh 文件 中 配置 JDK 的 安装 信息 ， 配 置 
内 容 如 下 : 


# The java implementation to use. 
export JAVA HOME-/usr/1lib/java/jdk1.7.0 67 


(3) 为 了 方便 我 们 开机 启动 后 也 可 以 立即 使 用 Hadoop 的 bin 目录 下 的 相关 命令 ， 可 以 
把 hadoop 的 bin 目录 配置 到 “~/. bashre” 文 件 中 ， 修改 后 的 文件 内 容 为 : 


export JAVA HOME-/usr/lib/java/jdki.7.80 67 


export JRE HOME-$(JAVA HOME)/jre LL" Hadoop 的 环境 恋 量 

export HADOOP HOME-/usr/local/hadoop/hadoop-2.4.1 

export SCALA HOME-/usr/lib/scala/scala-2.11.4 

export SPARK HOME-/usr/local/spark/spark-1.1.0-bin-hadoop2.4 

export M2 HOME-/usr/local/spark/apache-maven-3.2.2/ 

export CLASS PATH-.:$(JAVA HOME)/lib:$(JRE HOMEj)/lib 

export PATH- /usr/l ocal/git/libexec/git-core:/usr/local/ssl/bin:/usr/local l/cu 
rl/bin:/usr/local/git/bin:/usr/local/spark/git-1.8.2.3/spark/sbt:/usr/local/ 


idea/idea-IC-135.1230/bin:${M2_HOME}/bin:${SPARK_HOME}/bin:${SCALA_HOME}/bin 
:${JAVA_HOME}/bin:S{HADOOP_HOME}/bin:SPATH 


保存 并 退出 ， 使 用 source ~/. bashre 命令 使 配置 信息 生效 。 

2. 配置 Hadoop 分 布 式 集群 

(1) TE/etc/hostname 文件 中 修改 主机 名 ， 并 在 /etc/hosts 文件 中 配置 主机 名 和 IP 地 址 
的 对 应 关系 。 可 以 在 命令 终端 使 用 ifconfig 命令 查看 当前 机 需 的 IP 地 址 。 在 这 里 考虑 到 我 们 
最 终 是 为 了 构建 Spark 集群 ， 所 以 三 台 机 器 的 主机 名 定 为 : SparkMaster, SparkWorkerl , 
SparkWorker2, 。 如 果 修 改 完 三 台 机 上 需 各 目的 /etc/hostname 文件 后 ， 主 机 的 名 字 没 有 生效 ， 重 
新 启动 系统 后 就 可 以 了 。 


a 


Spark 核心 源码 分 析 与 开发 实战 


图 root@SparkMaster: / 
SparkMaster 


SparkMaster 结 点 的 主机 名 


(Pl) root @SparkMaster: / 


9 127.0.0.1 localhost 
192.168.124.129 SparkMaster 
: 192.168.124.130 SparkWorker1 
5 192.168.124.132 SparkWorker2 
hosts 文件 中 IP 和 主机 名 对 应 关系 


(2) 在 hadoop 的 目录 下 用 mkdir 命令 创建 namenode 和 datanode 目录 : tmp, hdfs, hdfs/ 
data, hdfs/name, 

(3) 修改 SparkMaster 的 配置 文件 

1) 修改 core — site. xml 文件 ， 修 改 后 的 内 容 为 : 


<!-- Put site-specific property overrides in this file. --> 
«configuration» 
«property» 


<name>fs.defauLtFS</name> 
<value>hdfs: //SparkMaster :9000</value> 
</property> 
<property> 
<name>hadoop. tmp.dir</name> 
«value»/usr/local/hadoop/hadoop-2.4.1/tmp«-/value» 
«/property» 
</configuration> 


2) 修改 mapred - site. xml 文件 ， 修 改 后 的 内 容 为 : 


<!-- Put site-specific property overrides in this file. --> 


<configuration> 
<property> 
<name>mapred. job. tracker</name> 
<value>SparkMaster :9001</value> 
</property> 
</configuration> 


3) 修改 hdfs - site. xml X fF, JE “dfs. replication” 的 值 设 为 2， 这 样 数 据 就 会 有 两 份 副 
本 。 修 改 后 的 内 容 为 : 


<!-- Put site-specific property overrides in this file. --> 


<configuration> 
<property> 
«name»dfs.replication-/name» 
«value»2«/value- 
</property> 
<property> 
<name>dfs.namenode.name.dir</name> 
«value»/usr/local/hadoop/hadoop-2.4.1/dfs/name-/value» 
«/property» 
«property» 
<name>dfs.datanode.data.dir</name> 
«value»/usr/local/hadoop/hadoop-2.4.1/dfs/data-/value» 
«/property» 
«/configuration» 
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4) 修改 masters 和 slaves 文件 的 内 容 ， 在 masters SPF, HE “localhost” PRA “ Spark- 
Master" , slaves 文件 的 内 容 修改 后 为 : 


Terminal 

Iw (fj) root @SparkMaster: /usr/local/hadoop/hadoop-2.4.1/etc/hadoop > 
SparkWorker1 
SparkWorker2 


口 | E 


(4) 将 SparkMaster 结 点 上 Hadoop 的 所 有 文件 通 过 pssh 复制 到 为 外 两 个 结 点 上 去 。 在 终 
端 输入 命令 : . /pssh —h host. txt —r /usr/local/hadoop, 


(5) 进入 SparkWorkerl 、SparkWorker2 检查 Hadoop 的 文件 内 容 。 
3. 测试 Hadoop 分 布 式 集群 
(1) 在 SparkMaster 结 点 格式 化 集群 的 文件 系统 ， 在 命令 终端 输入 : hadoop namenode 


— format 


(2) 启动 Hadoop 集群 ， 进 入 Hadoop 的 sbin 目录 ， 然 后 在 shell 命令 终端 输入 : . /start — 
all. sh 命令 ， 可 以 看 到 SparkMaster, SparkWorkl 以 及 SparkWorker2 全 部 已 经 启动 。 


root@SparkMaster: /usr/local/hadoop/hadoop-2.4.1/sbin# ./start-all.sh 

This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh 

Starting namenodes on [SparkMaster ] 

SparkMaster: starting namenode, logging to /usr/local/hadoop/hadoop-2.4.1/1logs/ 
hadoop-root-namenode-SparkMaster.out 

SparkWorkeri: starting datanode, logging to /usr/local/hadoop/hadoop-2.4.1/logs 
/hadoop-root-datanode-SparkWorker1.out 

SparkWorker2: starting datanode, logging to /usr/local/hadoop/hadoop-2.4.1/logs 
/hadoop-root-datanode-SparkWorker2.out 

Starting secondary namenodes [0.0.0.0] 

0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/hadoop-2.4.1/ 
logs/hadoop-root-secondarynamenode-SparkMaster.out 

starting yarn daemons 

starting resourcemanager, logging to /usr/local/hadoop/hadoop-2.4.1/logs/yarn-r 
oot-resourcemanager-SparkMaster.out 

SparkWorker2: starting nodemanager, logging to /usr/local/hadoop/hadoop-2.4.1/1 
ogs/yarn-root-nodemanager-SparkWorker2.out 

SparkWorkeri: starting nodemanager, logging to /usr/local/hadoop/hadoop-2.4.1/1 
ogs/yarn-root-nodemanager-SparkWorker1.out 


(3) 通过 JPS 命令 查看 一 下 各 个 结 点 的 进程 信息 : 


root@SparkMaster: /usr/local/hadoop/hadoop-2.4.1/sbin# 
root@SparkMaster: /usr/local/hadoop/hadoop-2.4.1/sbin# jps 
4856 ResourceManager 

4433 NameNode 

5769 Jps 

4716 SecondaryNameNode 


root@SparkWorker1:~# jps root@SparkWorker2:~# jps 
2444 DataNode 2193 DataNode 

1557 NodeManager 2350 NodeManager 

2803 Jps 2720 Jps 


在 SparkMaster 结 点 出 现 了 进程 ID H 4433 的 NameNode, SparkWorkerl 结 点 出 现 了 进程 
ID 为 2444 的 DataNode, 以 及 SparkWorker2 结 点 出 现 了 进程 ID 为 2193 的 DataNode。 此 时 
Wadoop 分 布 式 集群 搭建 完成 。 
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(1) Spark 官方 对 配套 的 Scala 版 本 有 规定 ， 所 以 要 根据 自己 的 实际 情况 来 选择 Scala 的 
版 本 ， 笔 者 这 里 下 载 的 是 scala -2.11.4。Scala 安装 包 的 官方 下 载 地 址 是 : http://www. scala 
- lang. org/download/ , 

(2) 下 载 Scala 安装 包 之 后 对 其 进行 解压 ， 并 把 解压 后 的 文件 存放 到 自己 新 创建 的 目录 
下 面 。 

(3) 修改 环境 变量 ， 打 开 “ ~/ bashre” 文 件 ， 配 置 Scala 的 环境 变量 。 保 存 并 退出 ， 
并 使 用 “source ~/. bashre” 命 令 使 配置 文件 的 修改 生效 。 


export JAVA HOME-/usr/lib/java/jdki1.7.0 67 


export JRE_HOME=S{JAVA_HOME}/jre 

export HADOOP HOME-/usr/local/hadoop/hadoop-2.4.1 

export SCALA HOME-/usr/lib/scala/scala-2.11.4 < 一 Scala 的 环境 变量 

export SPARK HOME-/usr/local/spark/spark-1.1.0-bin-hadoop2.4 

export M2 HOME-/usr/local/spark/apache-maven-3.2.2/ 

export CLASS PATH-.:$(JAVA HOME)/lib:S[JRE HOME)/lib 

export PATH-/usr/local/git/libexec/git-core:/usr/local/ssl/bin:/usr/local/cu 
rl/bin:/usr/local/git/bin:/usr/local/spark/git-1.8.2.3/spark/sbt:/usr/1local/ 


idea/idea-IC-135.1230/bin:$(M2 HOME)/bin:S(SPARK HOME]/bin:S$[SCALA HOME] /bin 
:$(JAVA HOME] /bin:S[HADOOP HOME] /bin:SPATH 


(4) 在 命令 终端 输入 “scala — version" FJ LA fr Scala 的 版 本 信息 。 


root@SparkMaster:/# scala -version 
Scala code runner version 2.11.4 -- Copyright 2002-2013, LAMP/EPFL 


(5) 在 命令 终端 输入 “scala” 后 就 进入 了 Scala 的 命令 交互 界面 。 
root@SparkMaster:/# scala 
Welcome to Scala version 2.11.4 (Java HotSpot(TM) Client VM, Java 1.7.0 67). 
Type in expressions to have them evaluated. 
Type :help for more information. 


scala» || 


(6) HF Spark 需要 运行 在 三 侣 机 各 上 ， 男 外 两 台 同 样 需 要 安装 Scala， 在 这 里 可 以 使 用 
“scp” 命 令 把 SparkMaster 机 器 上 的 Scala 的 安装 目录 和 “~/. bashre” 文 件 都 复制 到 另外 两 
全 机 右 相 同 的 目录 下 。 安 装 好 后 ， 记 得 测试 一 下 Scala 的 安装 效果 。 
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Spark 需要 运行 在 三 台 机 天 上 ， 这 里 移 安 装 Spark 到 SparkMaster jx RHE, WIAA 
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Spark 


的 安装 方法 一 样 ， 也 可 以 使 用 SSH B. ' 
录 复 制 到 必 外 两 侣 机 需 相 同 的 目录 下 。 

(1) M Spark 官网 下 载 Spark 安装 包 ， 笔 者 用 的 是 spark -1.1.0。 下 载 完 后 解压 ， 并 存 
放 到 自己 指定 的 存储 目录 下 : 


'scp" 命令 把 SparkMaster 机 需 上 的 安装 好 的 Spark H 


e 


root@SparkMaster:/usr/local/spark# ls -lr 

total 21984 

-rw-r--r-- 1 root root 571091 Aug 16 2014 zlib-1.2.8.tar.gz 

drwxr-xr-x 14 501 staff 4096 Aug 16 2014 zlib-1.2.8 

drwxrwxr-x 11 rocky rocky 4096 Feb 6 81:21 spark-1.2.0-bin-hadoop2.4 
drwxrwxr-x 11 rocky rocky 4096 Apr 1 22:46 spark-1.1.0-bin-hadoop2.4 ——- 这 里 选用 spark-1.1.0 
drwxrwxr-x 11 rocky rocky 4096 Oct 7 2814 spark-1.0.2-bin-hadoop2 
-rWw-r--r-- 1 root root 3313857 Aug 16 2814 openssl-8.9.8c.tar.gz 
drwxr-xr-x 22 root root 4096 Aug 16 2814 openssl-0.9.8c 

-rw-r--r-- 1 root root 4975916 Aug 16 2014 git-2.1.0.tar.gz 

drwxrwxr-x 28 root root 32768 Dec 4 06:49 git-2.1.0 

-rW-r--r-- 1 root root 4405594 May 10 2813 git-1.8.2.3.tar.gz 

-rw-r--r-- 1 root root 2225788 Jan 3 2008 curl-7.17.1.tar.gz 

drwxrwxrwx 8 rocky rocky 4096 Aug 16 2014 

-rW-r--r-- 1 root root 0948967 Aug 16 2814 apache-maven-3.2.2-bin.tar.gz 
drwxr-xr-x 6 root root 4096 Aug 16 2014 apache-maven-3.2.2 


(2) 配置 环境 变量 ， 打 开 “ ~/. bashre” 


bin 目录 添加 到 PATH 中 : 


rt JAVA HOME-/usr/1lib/java/jdki.7.8 67 


文件 ， IN "SPARK, HOME", 


并 把 Spark 的 


expo 


export JRE_HOME=${JAVA_HOME}/jre 


export HADOOP HOME-/usr/local/hadoop/hadoop-2.4.1 


export SCALA HOME-/usr/lib/scala/scala-2.11.4 


a Spark 的 环境 


export SPARK HOME-/usr/local/spark/spark-1.1.8-bin-hadoop2.4 


export M2 HOME-/usr/local/spark/apache-maven-3.2.2/ 


export CLASS PATH-.:$(JAVA HOME]/lib:5[JRE HOMEj/lib 


export PATH-/usr/local/git/libexec/git-core:/usr/local/ssl/bin:/usr/local/cu 
rl/bin:/usr/local/git/bin:/usr/iocal/spark/git-1.8.2.3/spark/sbt:/usr/1local/ 
idea/idea-IC-135.1230/bin:${M2_HOME}/bin:${SPARK_HOME}/bin:${SCALA_HOME}/bin 
:$(JAVA HOME) /bin:$[HADOOP HOME]/bin:$PATH 


保存 并 退出 ， 并 使 用 命令 使 配置 文件 的 修改 生效 。 
(3) 配置 Spark。 需 要 配置 spark - env. sh 文件 和 slaves 文件 ， 首 先 需 要 在 当前 目录 下 复 
itil] spark — env. sh. template 文件 为 spark - env. sh 文件 ， 如 下 所 示 : 


root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4/conf# ls -lr 


“source ~/. bashre” (d 


total 36 

-rwxrwxr-x 1 rocky rocky 2755 Oct 7 2014 

-rwxr-xr-x 1 root root 3259 Apr 9 20:45 

-rWw-rw-r-- 1 rocky rocky 507 Oct 7 2014 spark-defaults.conf.template 
-rWw-rw-r-- 1 rocky rocky 99 Oct 7 2014 slaves 

-rW-r--r-- 1 root root 3724 Apr 6 19:00 @root@sparkWorker2 
-rWw-rw-r-- 1 rocky rocky 5308 Oct 7 2014 metrics.properties.template 
-rW-rw-r-- 1 rocky rocky 620 Oct 7 2014 log4j.properties.template 
-rw-rw-r-- 1 rocky rocky 303 Oct 7 2014 fairscheduler.xml.template 


root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4/conf# 


FA vim 打开 i on -env. sh 文件 ， 配 置 的 内 容 如 下 : 


port JAVA HOME-/usr/1lib/java/jdk1.7.0 67 
port SCALA HOME-/usr/lib/scala/scala-2.11.4 

t HADOOP HOME-/usr/!ocs! /hadoop/hadoop-2.4.1 
export HADOOP_CONF_DIR=/usr/\local/hadoop/hadoop-2.4.1/etc/hadoop 
export SPARK MASTER IP-SparkMaster 
ort SPARK WORKER MEMORY-2g 

t SPARK WORKER CORES-2 
SPARK WORKER INSTANCES-1 


Spark 〔， ” 核心 源码 分 析 与 开发 实战 


保存 并 退出 后 ， 记 得 使 配置 信息 生效 。 配 置信 息 所 表示 的 意义 分 别 为 : 

1) JAVA. HOME 指 的 是 Java 的 安装 目录 ; 

2) SCALA_HOME 指 的 是 Scala 的 安装 目录 ; 

3) HADOOP HOME 指 的 是 Hadoop 的 安装 目录 (或 者 说 HDFS 的 部 署 路 径 ， 因 为 Spark 
需要 和 HDFS 中 的 结 点 在 一 起 工作 ) ; 

4) HADOOP CONF DIR 指 的 是 Hadoop 集群 的 配置 文件 的 目录 ; 

5) SPARK, MASTER IP 指 的 是 Spark 集群 的 Master 结 点 的 IP 地 址 ; 

6) SPARK WORKER. MEMORY 指 的 是 每 个 Worker 结 点 能 够 最 大 分 配给 Exectors 的 内 
存 大 小 ; 

7) SPARK_WORKER_CORES 指 的 是 每 个 Worker 结 点 所 占有 的 CPU 核 数 目 。 

8) SPARK_WORKER_INSTANCE 指 的 是 每 台 机 器 上 开启 的 Worker 结 点 的 数目 。 

接 下 来 配置 slaves 文件 ， 把 Worker 结 点 的 主机 名 都 添加 进去 ， 修 改 后 的 内 容 为 : 


(f) root @SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4/conf 

# A Spark Worker will be started on each of the machines Listed below. 
SparkWorker1 

SparkWorker2 


"TEUER $3811] ABE FP BUEN LIES S o 
(4) SparkWorkerl 和 SparkWorker2 采用 与 SparkMaster 结 点 相同 的 安装 配置 ， 可 以 使 用 
SSH 通信 直接 复制 Spark 的 安装 目录 和 “ ~/. bashre” 文 件 到 另外 两 台 机 器 相同 的 目录 下 ， 
这 里 不 再 详解 。 
(5) 启动 并 测试 集群 的 状况 。 
1) 当前 我 们 只 使 用 Hadoop 的 HDF 文件 系统 ， 所 以 可 以 只 启动 Hadoop 的 HDFS 文件 系 
统 。 进 入 Hadoop 的 sbin 目录 下 ， 然 后 在 shell 命令 终端 输入 : . /start - dfs. sh 命令 ， 可 以 看 
到 SparkMaster 启动 了 namenodes, SparkWorkerl 和 SparkWorker2 都 启动 了 datanode， 表 示 
HDFS 文件 系统 已 经 启动 。 
root@SparkMaster: /usr/local/hadoop/hadoop-2.4.1/sbin# ./start-dfs.sh 
starting namenodes on [SparkMaster] 
SparkMaster: starting namenode, logging to /usr/local/hadoop/hadoop-2.4.1/logs 
/hadoop-root-namenode-SparkMaster.out 
SparkWorkeri: starting datanode, logging to /usr/local/hadoop/hadoop-2.4.1/log 
s/hadoop-root-datanode-SparkWorker1.out 
SparkWorker2: starting datanode, logging to /usr/local/hadoop/hadoop-2.4.1/1log 
s/hadoop-root-datanode-SparkWorker2.out 
Starting secondary namenodes [0.0.0.0] 


0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/hadoop-2.4.1 
/logs/hadoop-root-secondarynamenode-SparkMaster.out 


2) JH Spark 的 sbin 目录 下 的 “start - all. sh” 命 令 启动 Spark 集群 ， 这 里 需要 注意 的 是 
在 命令 终端 必须 写成 “. /start — all. sh”， 因 为 在 Hadoop 的 sbin 目录 下 也 有 一 个 “start — 
all. sh” 可 执行 文件 。 
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root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4/sbin# ./start-all. 

sh 

starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/sp 
ark-1.1.0-bin-hadoop2.4/sbin/../logs/spark-root-org.apache.spark.deploy.master 
.Master-1-SparkMaster.out 

SparkWorkeri: starting org.apache.spark.deploy.worker.Worker, logging to /usr/ > 
local/spark/spark-1.1.0-bin-hadoop2.4/sbin/../logs/spark-root-org. apache. spark 
.deploy.worker.Worker-1-SparkWorker1.out 

SparkWorker2: starting org.apache.spark.deploy.worker.Worker, Logging to /usr/ 
local/spark/spark-1.1.0-bin-hadoop2.4/sbin/../logs/spark-root-org.apache.spark 
.deploy.worker.Worker-1-SparkWorker2.out 


3) 此 时 使 用 JPS 在 SparkMaster 2543 , SparkWorkerl 和 SparkWorker2 结 点 分 别 可 以 查看 
到 新 开启 的 Master 和 Worker 进程 。 


root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4/sbin# jps 
7756 Master 

7877 Jps 

6997 NameNode 

7306 SecondaryNameNode 


root@SparkwWorker2:/# jps root@SparkWorker1:~# jps 
3488 DataNode 4130 Jps 

4038 Worker 3597 DataNode 

4125 Jps - 4054 Worker 


4) 可 以 进入 Spark 的 WebUI 页 面 ， 访问“SparkMaster: 8080", 40] 2-18 所 示 (8080 
为 Spark 的 WebUI 监听 端口 ，7077 是 Spark 集群 的 Master 的 内 部 监听 端口 ) 。 


| 4 ** sparkmaster:8080 


Spark Spark Master at spark://SparkMaster:7077 


URL: spark//SparkMaster:7077 

Workers: 2 

Cores: 4 Total, 0 Used 

Memory: 4.0 GB Total, 0.0 B Used 

Applications: 0 Running, 0 Completed 

Drivers: 0 Running. 0 Completed 

Status: ALIVE 

Workers 
id Address 
worker-20150410081 142-SparkWorker1-55622 SparkWorker1:55622 
worker-20150410081 142-SparkWorker2-49130 SparkWorker2:49130 


Running Applications 
ID | Name | Cores | Memory per Node Submitted Time 


Completed Applications 


ID Name ‘Cores Memory per Node Submitted Time 


图 2-18 SparkMaster 的 WebUI 


从 图 2-18 可 以 看 出 有 两 个 正在 运行 的 Worker 结 点 。 

5) 进入 Spark 的 bin 目录 (当然 因为 我 们 已 经 把 Spark 的 bin 目录 设置 在 ~/. bashrc X 
件 中 ， 可 以 直接 在 其 他 目录 下 使 用 spark - shell 命令 ) ， 使 用 “spark - shell ”命令 可 以 进入 
spark - shell 控制 台 : 


root@SparkMaster:/# spark-shell 

Spark assembly has been built with Hive, including Datanucleus jars on classpath 
15/04/18 22:26:43 INFO spark.SecurityManager: Changing view acls to: root, 
15/04/18 22:26:43 INFO spark.SecurityManager: Changing modify acls to: root, 
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Spark 


15/04/18 22:26:43 INFO spark.SecurityManager: SecurityManager: authentication disabl 
ed; ui acls disabled; users with view permissions: Set(root, ); users with modify pe 
rmissions: Set(root, ) 
15/04/18 22:26:43 INFO spark.HttpServer: Starting HTTP Server 
15/04/18 22:26:44 INFO server.Server: jetty-8.y.z-SNAPSHOT 
15/04/18 22:26:44 INFO server.AbstractConnector: Started SocketConnector@0.0.0.0:607 
56 
15/04/18 22:26:44 INFO util.Utils: Successfully started service 'HTTP class server' 
on port 60756. 
Welcome to 
ape o — ay O0 
di Ribs, M uL t 
yw z HA ut J TINN version 1.1.0 
/_/ 


Using Scala version 2.10.4 (Java HotSpot(TM) Client VM, Java 1.7.0 67) 
Type in expressions to have them evaluated. 


我 们 也 可 以 在 WebUI 页 面 输入 “http: //SparkMaster; 4040" M Web 的 角度 了 解 Spark 
-Shell (如 图 2-19 所 示 ) 。 


Ç [ & sparkmaster:4040/stages/ 
Spark: Stages Storage Environment Executors 


Spark Stages 


Total Duration: 1.7 min 
Scheduling Mode: FIFO 
Active Stages: 0 
Completed Stages: 0 
Falled Stages: 0 


Active Stages (0) 

Stage Id Description Submitted Duration Tasks: Succeeded/Total 
Completed Stages (0) 

Stage Id Description Submitted Duration Tasks: Succeeded/Total 
Failed Stages (0) 


Stage Id Description Submitted Duration Tasks: Succeeded/Total 


图 2-19 Spark - Shell 的 WebUI 页 面 


这 时 ，Spark 集群 部 署 成 功 ， 下 面 进行 集群 的 测试 。 


DE 测试 Spark 集群 


253] 通过 Spark 提供 的 示例 LocalPi 测试 Spark 集群 


该 示例 是 用 Spark 的 run - example 命令 在 Spark 集群 里 运行 示例 LocalPi， 最 终 打印 Pi 的 
一 个 大 约 的 值 到 Shell 控制 台 

(1) 启动 Spark 集群 和 Spark Shell, 

(2) 进入 Spark fy bin 目录 下 ， 用 run - example 命令 运行 Spark 上 自 带 的 示例 LocalPi, 1% 
示例 的 源码 如 下 : 
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package org. apache. spark. examples 
import scala. math. random 
import org. apache. spark. _ 
import org. apache. spark. SparkContext. _ 
objectLocalPi | 
def main( args; Array| String] ) | 
var count =0 
for (i< — 1 to 100000) | 
val x =random * 2-1 
val y Zrandom * 2-1 
if (x*x+y*y<1) count+= 1 
| 
println( " Pi is roughly " +4 * count / 100000. 0) 
| 
| 


在 SparkMaster 结 点 的 Spark 的 bin 目录 下 输入 以 下 命令 : 


root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4/bin# ./run-exa 
mple org.apache.spark.examples.LocalPi spark://SparkMaster:7077 

Spark assembly has been built with Hive, including Datanucleus jars on cla 
sspath 

Pi is roughly 3.13928 


从 运行 结果 看 到 在 Shell 控制 台 打 印 出 了 “Pi is roughly 3. 12928" , 


925377 通过 Spark Shell 测试 Spark 集群 


该 示例 是 在 Spark Shell 中 ， 对 从 HDFS 文件 系统 加 载 进 来 的 README. md 文件 进行 一 系 
列 的 操作 ， 最 终 求 出 “Spark” 这 个 单词 在 文件 中 一 共 出 现 了 多 少 次 。 详 细 操作 步骤 如 下 : 

(1) 局 动 Spark 集群 和 Spark Shell, 

(2) 在 SparkMaster 重新 开启 一 个 命令 终端 ， 把 Spark 安装 目录 下 的 “README. md” X 
件 复 制 到 HDFS 系统 的 data 文件 目录 下 。 


root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4# hadoop fs -copyFromLocal README. 
md /data/ 


此 时 查看 一 下 Web 控制 人 台 ， 可 以 发 现 文件 已 经 成 功 上 传 上 去 了 (如 图 2-20 所 示 ): 


/data 


Permission Owner Group Size Replication Block Size Name 


-TW-r-r-— root supergroup 4.7 KB 2 128 MB README.md 


E] 2-20 HDFS 中 保存 的 README. md 文件 


(3) 在 启动 Spark Shell 之 后 ， 会 看 到 一 个 ss， 这 个 sc 指 的 是 SparkContext， 它 是 把 代码 
提交 到 集群 或 者 本 地 的 通道 。Spark Shell 局 动 的 时 候 会 目 动 玫 我 们 生成 sco 


l Spark 


O 


) > Go € P 
p WD uU uw ow © d e 
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15/04/18 22:27:00 INFO ui.SparkUI: Started SparkUI at http://SparkMaster:4040 
15/04/18 22:27:01 WARN util.NativeCodeLoader: Unable to load native-hadoop library f 
or your platform... using builtin-java classes where applicable 

15/04/18 22:27:01 INFO executor.Executor: Using REPL class URI: http://192.168.124.1 


29:60756 


15/04/18 22:27:02 INFO util.AkkaUtils: Connecting to HeartbeatReceiver: akka.tcp://s 
parkDriver@SparkMaster :37213/user/HeartbeatReceiver 

15/04/18 22:27:02 INFO repl.SparkILoop: Created spark context.. 

Spark context available as sc. 


(4) 在 Spark Shell 下 编写 代码 ， 运 行 刚 上 传 到 HDFS AY “README. md” 


文件 。 


scala» val rdd = sc.textFile("hdfs://SparkMaster :9000/data/README.md" ) 

15/04/10 08:36:01 WARN util.SizeEstimator: Failed to check whether UseCompressedOops is set; assuming yes 

15/04/10 08:36:01 INFO storage.MemoryStore: ensureFreeSpace(156973) called with curMem=0, maxMem=280248975 

15/04/10 08:36:01 INFO storage.MemoryStore: Block broadcast 0 stored as values in memory (estimated size 153.3 KB, fr 


ee 267.1 MB) 


rdd: org.apache.spark.rdd.RDD[String] = hdfs://SparkMaster:9000/data/README.md MappedRDD[1] at textFile at «console»: 


12 


scala» val count - rdd. 
08: 
08: 
08: 


15/04/10 
15/04/10 
15/04/10 
-false) 

15/04/10 
15/04/10 
15/04/10 
15/04/10 


08: 
08: 
08: 
08: 


373 
37: 
37: 


37: 
37: 
37: 
375 


44 
44 
44 


44 
44 
44 
44 


INFO 
INFO 
INFO 


INFO 
INFO 
INFO 
INFO 


filter(line -»line.contains("Spark")).count 


mapred.FileInputFormat: 


Total input paths to process : 1 


spark.SparkContext: Starting job: count at «console»:14 


scheduler .DAGScheduler: 


scheduler .DAGScheduler: 
scheduler.DAGScheduler: 
scheduler .DAGScheduler: 
scheduler.DAGScheduler: 


Got job 8 (count at «console»:14) with 1 output partitions (allowLocal 


Final stage: Stage O(count at <console>:14) 

Parents of final stage: List() 

Missing parents: List() 

Submitting Stage © (FilteredRDD[2] at filter at «console»:14), which h 


as no missing parents 
15/04/10 08:37:44 INFO 
15/04/10 08:37:44 INFO 
267.1 MB) 
15/04/10 08:37: 
console»:14) 


44 INFO 


storage.MemoryStore: ensureFreeSpace(2616) called with curMem-156973, maxMem-280248975 
storage.MemoryStore: Block broadcast 1 stored as values in memory (estimated size 2.6 KB, free 


scheduler.DAGScheduler: Submitting 1 missing tasks from Stage 0 (FilteredRDD[2] at filter at « 


15/04/10 
15/04/10 
15/04/10 
15/04/10 
15/04/10 
15/04/10 
d 
15/04/10 
15/04/10 
rtition 
15/04/10 
15/04/10 
15/04/10 
15/04/10 


08: 
08: 
08: 
08: 
08: 
08: 


08: 
08: 


08: 
08: 
08: 
08: 


count: Long 


从 执行 结果 中 ， 可 以 看 到 “Spark” 这 个 词 一 共 出 现 了 21 次 。 
此 时 查看 Spark Shell 的 Web 控制 台 (如 图 2-21 所 示 ) ， 可 以 看 到 我 们 提交 了 一 个 任务 


37: 
37: 
37: 
37: 
37: 
37: 


37: 
373 


37: 
37: 
37: 
3T: 


44 
44 
44 


44 
44 


44 
45 
45 
45 


- 21 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


INFO 
INFO 


INFO 
INFO 
INFO 
INFO 


scheduler.TaskSchedulerImpl: Adding task set 0.0 with 1 tasks 
scheduler.TaskSetManager: Starting task 0.0 in stage 0.0 (TID 0, localhost, ANY, 1194 bytes) 


executor.Executor: Running 
rdd.HadoopRDD: Input split: 
Configuration.deprecation: 
Configuration.deprecation: 


Configuration.deprecation: 
Configuration.deprecation: 


Configuration.deprecation: 


task 0.0 in stage 0.0 (TID 0) 

hdfs://SparkMaster :9000/data/README.md:0+4811 
mapred.tip.id is deprecated. Instead, use mapreduce.task.id 
mapred.task.id is deprecated. Instead, use mapreduce.task.attempt.i 


mapred.task.is.map is deprecated. Instead, use mapreduce.task.ismap 
mapred.task.partition is deprecated. Instead, use mapreduce.task.pa 


mapred.job.id is deprecated. Instead, use mapreduce. job.id 


executor.Executor: Finished task 0.0 in stage 0.0 (TID 0). 1731 bytes result sent to driver 
scheduler.DAGScheduler: Stage 0 (count at <console>:14) finished in 0.626 s 
spark.SparkContext: Job finished: count at <console>:14, took 0.911280795 s 


€ [& sparkmaster:4040/stages/ 加 区 - Bing 


Spark: Stages | Storage Environment Executors 


Spark Stages 


Total Duration: 17 min 
Scheduling Mode: FIFO 
Active Stages: 0 
Completed Stages: 1 
Falled Stages: 0 


Active Stages (0) 
Stage Id 

Completed Stages (1) 
Stage Id Description 
0 count at <console>:14 
Failed Stages (0) 


Stage Id Description 


单 击 这 个 完成 的 任务 的 Description 选项 ， 


Biz) 。 


Description 


Submitted Duration Tasks: Succeeded/Total Input Shuffle Read 
Submitted Duration Tasks: Succeeded/Total 
«details. 2015/04/10 08:37:44 06s a) 
Submitted Duration Tasks: Succeeded/Total Input Shuffle Read Shuffle Write 
图 2-21 任务 运行 状况 


可 以 看 到 它 执行 的 详细 情况 (如 图 2-22 


D Wu OS 
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Spark! Stages | Storage Environment Executors 


Details for Stage 0 
Total task time across all tasks: 0.4 s 
Input: 4.7 KB 
Summary Metrics for 1 Completed Tasks 
Metric Min 25th percentile Median 
Result serialization time 2ms 2ms 2ms 
Duration 04s 04s 04s 
Time spent fetching task results 0 ms 0 ms 0ms 
Scheduler delay 02s 02s 02s 
Input 4.7 KB 4.7 KB 4.7 KB 
Aggregated Metrics by Executor 
Executor ID Address Task Time Total Tasks Failed Tasks Succeeded Tasks Input 
localhost CANNOT FIND ADDRESS 06s 1 0 1 47 KB 
Tasks 
Index ID Attempt Status Locality Level Executor Launch Time Duration 
0 0 0 SUCCESS ANY localhost 2015/04/10 08:37:44 04s 


图 2-22 任务 执行 的 详细 情况 


1. SSH 免 密 码 登 录 如 何 配置 ? 
2. Spark 集群 如 何 局 动 ? 如 何 通过 Spark Shell 提交 任务 给 集群 ?” 如 何在 WebUI 中 查看 
Spark 任务 的 运行 状况 ? 


= Spark RDD 5&Spark API 编 程 实践 


RDD 介绍 

RDD 的 操作 分 类 

Spark Shell 下 的 Spark API 编程 实践 

基于 IntelliJ IDEA 使 用 Spark API 开发 应 用 程序 


Ete =m ”Spark RDD 与 Spark AP1 编 程 实践 


SP RDD 是 Spark 的 核心 抽象 — 


弹性 分 布 式 数据 集 (RDD, Resilient Distributed Datasets), Spark 的 核心 抽象 ， 是 对 
分 布 式 内 存 的 抽象 使 用 ， 它 表示 已 被 分 区 、 只 读 的 、 并 提供 了 一 组 丰 定 的 操作 方式 来 操作 这 
些 数据 集合 。 这 些 数 据 集 的 全 部 或 部 分 可 以 缓存 在 内 存 中 ， 在 多 次 计算 间 重 复 使 用 ， 省 去 了 
大 量 的 磁盘 I0 操作 。 在 这 些 操作 中 ， 诸 如 map, flatMap, filter 等 转换 操作 很 好 地 契合 了 
Scala 的 集合 操作 。 除 此 之 外 ，RDD 还 提供 了 诸如 join groupBy, reduceByKey 等 更 为 方便 的 
操作 ， 以 支持 常见 的 数据 运算 。 

RDD 具备 像 MapReduce 等 数据 流 模 型 的 容错 特性 ， 人 允许 用 户 在 大 型 集群 上 执行 基于 内 
存 的 计算 。 现 有 的 数据 流 系统 对 两 种 应 用 的 处 理 并 不 高 效 : 一 是 迭代 式 算法 ， 这 在 图 应 用 和 
机 笑 学 习 领 域 很 常见 ， 二 是 交互 式 数据 挖 据 工具。 这 两 种 情况 下 ， 将 数据 保存 在 内 存 中 能 够 
极 大 地 提高 性 能 。 为 了 有 效 地 实现 容错 ，RDD 提供 了 一 种 高 度 受 限 的 共享 内 存 ， 即 RDD 只 
能 基于 在 稳定 物理 存储 中 的 数据 集 和 其 他 已 有 的 RDD 上 的 执行 批量 操作 (如 map, join 和 
group by) 来 创建 但 是 这 些 限 制 使 得 实现 容错 的 开销 很 低 。 与 分 布 式 共享 内 存 系统 需要 付 
出 高 郧 代价 的 检查 点 和 回 深 机 制 不 同 ，RDD 通过 Lineage 机 制 来 重建 丢失 的 分 区 : 一 个 RDD 
中 包含 了 如 何 从 其 他 RDD 衍生 (计算) 出 本 RDD 所 必需 的 相关 信息 〈 即 Lineage) ， 据 此 可 
以 从 物理 存储 的 数据 计算 出 相应 的 RDD 分 区 ， 从 而 不 需要 检查 点 操作 就 可 以 重 构 丢失 的 数 
据 分 区 。 尽 管 RDD 不 是 一 个 通用 的 共享 内 存 抽象 ， 但 却 具备 了 良好 的 描述 能 力 、 可 伸缩 性 
和 可 靠 性 ， 能 够 广泛 适用 于 数据 并 行 类 应 用 。 

通常 来 讲 ， 针 对 数据 处 理 有 几 种 常见 模型 包括: 迭代 计算 (Iterative Algorithms), 、 交 
互 式 查询 (Relational Queries) 、 批 处 理 (MapReduce ) 、 实 时 流 处 理 (Stream Processing ) 。 
例如 Hadoop MapReduce 采用 了 MapReduces BiU, Storm 则 采用 了 Stream Processing 模型 。 
RDD 混合 了 这 四 种 模型 ， 使 得 Spark 可 以 应 用 于 大 多 数 大 数据 处 理 场 景 ， 图 3-1 展示 了 
Spark 基于 RDD 的 编程 模型 。 


Spark SQL Spark Streaming — | | 
| (SchemaRDD) (DStream) | Date LOL MLlib 


Spark RDD 


图 3-1 Spark 基于 RDD 应 对 多 种 大 数据 处 理 场景 


3. 1. 2 RDD 的 特征 


简单 地 说 ， 每 个 RDD 都 包含 有 如 下 特点 : 
(1) 一 组 RDD 分 区 (partition , 即 数据 集 的 原子 组 成 部 分 ) o 
(2) 计算 每 个 分 片 的 函数 (根据 父 RDD 计算 出 此 RDD ) 。 
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(3) XFS RDD 的 一 组 依赖 ， 这 些 依 赖 描述 了 RDD 的 Lineage， 依 赖 还 具体 分 为 罕 依 赖 
和 客 依 赖 ， 但 并 不 是 所 有 的 RDD 都 有 依赖 。 

(4) key - value 型 的 RDD 是 根据 哈 希 算法 来 分 区 的 ， 这 是 一 个 可 选项 (可 选项 就 是 可 
以 指定 也 可 以 不 指定 ， 不 指定 时 使 用 默认 的 )， 可 以 由 RDD 的 具体 子 类 来 指定 自己 的 分 区 
类 型 。 

(5) 每 一 个 分 片 的 优先 计算 位 置 (preferred location) ， 这 是 一 个 可 选项 ， 可 以 由 RDD 
的 具体 子 类 来 指定 自己 的 优先 计算 位 置 。 

表 3-1 总 结 了 每 个 RDD 的 核心 内 部 接口 : 

表 3-1 RDD 的 核心 内 部 接口 
Spark 中 RDD 的 内 部 接口 


TR W * x 
getPartitions( ) 返回 一 组 Partition 对 象 ， 即 一 个 Partition 类 型 的 数组 
getPreferredLocations( p) 根据 数据 存放 的 位 置 ， 返 回 分 区 p 在 哪些 结 点 访问 更 快 
getDependencies( ) 返回 依赖 关系 的 一 个 集合 
compute ( split , context ) 对 RDD 的 每 个 Partition 进行 计算 
partitioner( ) 返回 RDD 是 否 hash/range 分 区 的 元 数据 信息 


RDD 作为 数据 结构 ， 本 质 上 是 一 个 只 读 的 分 区 记录 集合 。 一 个 RDD 可 以 包含 多 个 分 
区 ， 每 个 分 区 就 是 一 个 dataset 片段 ，RDD 可 以 相互 依赖 。 如 采 RDD 的 每 个 分 区 最 多 只 能 被 
一 个 Child RDD 的 一 个 分 区 使 用 ， 则 称 之 为 narrow dependency; A Child RDD 分 区 都 可 
以 依赖 ， 则 称 之 为 wide dependency。 不 同 的 操作 依据 其 特性 ， 可 能 会 产生 不 同 的 依赖 。 例 如 
map 操作 会 产生 narrow dependency, Mj join 操作 则 产生 wide (shuffle) dependency (如 图 3-2 
BIN) s 


Narrow Dependencies Wide Dependencies 
map,.filter groupByKey 


join with inputs 
co-partitioned 


join with inputs not 
en co-partitioned 


图 3-2 RDD 依赖 图 


RDD 的 操作 分 类 


Spark 用 Scala 语言 实现 了 RDD 的 API, Scala 是 一 种 基于 JVM 的 静态 类 型 RR, M 
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回 对 象 的 语言 。Spark 选择 Scala 是 因为 它 简 洁 (特别 适合 交互 式 使 用 ) 、 有 效 〈 因 为 是 静态 
类 型 ) 。 下 面 就 来 介绍 常用 的 RDD 操作 。 


3.2.1 TARE ) OO 


在 Spark 程序 运行 中 ，RDD 的 数据 既 可 以 由 并 行 Scala 集合 转化 而 来 〈 如 通过 parallelize 
方法 输入 Scala 集合 数据 ) ， 也 可 以 从 外 部 文件 存储 系统 获取 〈 如 通过 textFile 方法 读 取 
HDFS 上 的 数据 等 ) 。 

1. Scala 集合 转换 输入 

SparkContext 提供 了 parallelize( ) 和 makeRDD ( ) 两 个 方法 从 Scala 集合 中 生成 RDD， 不 同 
的 一 点 是 makeRDD 方法 还 提供 了 一 个 可 以 指定 每 一 个 分 区 preferredLocations 参数 的 实现 。 

def parallelize [ T | ( seq: Seq [ T ] , numSlices: Int = defaultParallelism ) ( implicit arg0 : ClassTag 
[T]):RDD[T] 

Distribute a local Scala collection to form an RDD. 
def makeRDD[ T ] ( seq: Seq [ T ] , numSlices: Int = defaultParallelism ) ( implicit arg0 : ClassTag 
[T]) : RDD[T] 


Distribute a local Scala collection to form an RDD. 


下 面 是 在 Spark 交互 式 工 具 Spark Shell 上 的 演示 代码 : 
通过 SparkContext 的 parallelize 方法 ， 把 Scala 集合 转换 成 了 ParallelCollectionRDD 。 


scala> sc.parallelize(1 to 8) 
res0: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at «console»:13 


scala» | 


对 于 parallelize 方法 ， 还 可 以 设置 参数 numSlices ， 该 参数 表示 对 数据 集 进行 切片 ， 每 个 
分 片 局 动 一 个 Task 进行 处 理 。 下 面 代码 中 parallelize 方法 中 的 2 表示 的 切片 为 2。 


scala» sc.parallelize(1 to 6,2) 
res3: org.apache.spark.rdd.RDD[Int] - ParallelCollectionRDD[3] at parallelize at «console»:13 


通过 makeRDD 方法 生成 了 一 个 ParalleCollectionRDD ， 在 这 个 RDD 的 preferredLocations 
方法 中 可 以 通过 指定 每 个 分 区 值 的 最 优 存放 位 置 。 


scala» val col = Seq((1 to 5,Seq("hosti","host2")),(6 to 18,Seq("host3"))) 
col: Seq[(scala.collection.immutable.Range.Inclusive, Seq[String])] = List((Range(1, 2, 3, 4, 5),List(hosti, host2) 
), (Range(6, 7, 8, 9, 10),List(host3))) 


scala» val rdd2 - sc.makeRDD(col) 
rdd2: org.apache.spark.rdd.RDD[scala.collection.immutable.Range.Inclusive] - ParallelCollectionRDD[2] at makeRDD at 
«console»:14 


scala» rdd2.preferredLocations(rdd2.partitions(0)) 
res2: Seq[String] = List(hosti, host2) 


在 以 上 的 代码 中 ， 我 们 指定 了 Range(1,2,3,4,5) 的 最 优 存放 位 置 是 List ( host] , host2 ) , 
由 makeRDD 方法 生成 的 rdd2， 它 的 partitions(0) 指 的 就 是 Range(1,2,3,4,5) ， 当 调用 rdd2 
的 preferredLocations 方法 时 得 出 Range(1,2,3,4,5) 的 最 优 存储 位 置 是 List( hostl ,host2 ) 。 
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2. 外 部 文件 存储 系统 输入 

Spark 的 生态 系统 与 Hadoop ETE AKAM, Prt cee] Hadoop 相关 的 文件 类 型 或 者 
数据 库 类 型 。 男 外 ，Spark 为 了 能 够 兼容 Hadoop 新 旧 两 个 的 版 本 ， 也 提供 了 两 套 输 入 操作 接 
口 ， 这 些 接口 主要 包含 以 下 四 个 参数 : 

a. 输入 格式 (InputFormat) : 指定 数据 输入 的 类 型 ， 如 TextInputFormat 等 。 

b. KA: JELK, V] EEX PAI K 的 类 型 。 

c. EKA. 指定 [K,V] 键 值 对 中 的 V 的 类 型 。 

d. 分 区 值 : 指定 由 外 部 存储 生成 的 RDD 的 partition 数量 的 最 小 值 ， 如 果 没 有 指定 ， 系 
统 会 使 用 默认 值 defaultMinSplits 。 

(1) 使 用 textFile 方法 可 以 将 本 地 文件 或 HDFS 文件 转换 成 RDD， 如 果 要 读 取 本 地 文 
件 ， 各 个 结 点 都 要 有 该 文件 ， 或 者 使 用 网 络 共 享 文件 。 它 支持 整个 文件 目录 读 取 ， 如 text- 
File( ^/my/directory" ) 。 它 也 支持 压缩 文件 读 取 ， 比 如 textFile( */my/directory/ * . gz” )o Y 
支持 通 配 文件 读 取 ， 如 textFile( "/my/directory/ * . txt”), XJF textFile FEMA, AA path 
这 个 指定 文件 路 径 的 参数 ，minPartittion 参数 在 系统 内 部 指定 了 默认 值 。 


def textFile ( path : String , minPartitions : Int = defaultMinPartitions) : RDD[ String | 


Read a text file from HDFS,a local file system (available on all nodes) ,or anyHadoop - supported 
file system URI, and return it as an RDD of Strings. 


hadoopFile 方法 可 以 从 Hadoop 相关 的 文件 系统 读 取 文件 。 


def hadoopFile[ K, V, F <:InputFormat[ K, V ] | ( path: String) ( implicit km: ClassTag[ K ] , vm: 
ClassTag| V | ,fm:ClassTag[ F ] ) : RDD[ (K,V) ] 


Smarter version ofhadoopFile( ) that uses class tags to figure out the classes of keys, values and the 


(2 


M— 


InputFormat so that users dont need to pass them directly 


(3) newAPIHadoopFile 方法 是 针对 Hadoop 的 新 API 提供 的 读 取 输入 数据 的 方法 。 


def newAPIHadoopFile[ K, V,F < :InputFormat| K, V | | ( path : String , fClass : Class [ F ] , kClass: 
Class[ K ] ,vClass : Class[ V | , conf; Configuration = hadoopConfiguration) : RDD[ (K,V) | 
Get an RDD for a givenHadoop file with an arbitrary new API InputFormat and extra configuration 


options to pass to the input format. 
(4) 对 于 有 很 多 小 文件 需要 处 理 的 情况 来 说 ，Spark 也 提供 了 wholeTextFiles 方法 来 文 
持 。 这 个 方法 返回 的 结果 是 键 值 对 。 键 是 文件 名 ， 值 是 文件 内 容 。 


def wholeTextFiles ( path: String, minPartitions: Int = defaultMinPartitions ) : RDD [ ( String, 
String) | 


Read a directory of text files from HDFS,a local file system (available on all nodes) , or anyHa- 
doop - supported file system URI. 


下 面 简 单 演 示 Spark 用 textile 方法 从 HDFS 文件 系统 上 读 取 数 据 ， 然 后 使 用 count 方法 
统计 一 下 该 文件 的 行 数 。 


scala» val line = sc.textFile("/data/README.md") 

15/04/09 20:50:54 INFO storage.MemoryStore: ensureFreeSpace(156973) called with curMem-156973, maxMem=280248975 
15/04/09 20:50:54 INFO storage.MemoryStore: Block broadcast 1 stored as values in memory (estimated size 153.3 KB, 
free 267.0 MB) 

line: org.apache.spark.rdd.RDD[String] = /data/README.md MappedRDD[3] at textFile at <console>:12 


scala» line.count 

15/04/09 20:51:02 INFO mapred.FileInputFormat: Total input paths to process : 1 

15/04/09 20:51:02 INFO spark.SparkContext: Starting job: count at «console»:15 

15/04/09 20:51:02 INFO scheduler.DAGScheduler: Got job © (count at <console>:15) with 1 output partitions (allowLoc 
al-false) 

15/04/09 20:51:02 INFO scheduler.DAGScheduler: Final stage: Stage O(count at «console»:15) 

15/04/09 20:51:02 INFO scheduler.DAGScheduler: Parents of final stage: List() 

15/04/09 20:51:02 INFO scheduler.DAGScheduler: Missing parents: List() 

15/04/09 20:51:02 INFO scheduler.DAGScheduler: Submitting Stage 0 (/data/README.md MappedRDD[3] at textFile at «con 
sole»:12), which has no missing parents 

15/04/09 20:51:02 INFO storage.MemoryStore: ensureFreeSpace(2392) called with curMem-313946, maxMem=280248975 
15/04/09 20:51:02 INFO storage.MemoryStore: Block broadcast 2 stored as values in memory (estimated size 2.3 KB, fr 
ee 267.0 MB) 

15/04/09 20:51:02 INFO scheduler.DAGScheduler: Submitting 1 missing tasks from Stage 0 (/data/README.md MappedRDD[3 
] at textFile at «console»:12) 

15/04/09 20:51:02 INFO scheduler.TaskSchedulerImpl: Adding task set 0.0 with 1 tasks 

15/04/09 20:51:02 INFO scheduler.TaskSetManager: Starting task 0.0 in stage 0.0 (TID 0, localhost, ANY, 1194 bytes) 
15/04/09 20:51:02 INFO executor.Executor: Running task 0.0 in stage 0.0 (TID 0) 

15/04/09 20:51:02 INFO rdd.HadoopRDD: Input split: hdfs://SparkMaster:9000/data/README.md:0+4811 

15/04/09 20:51:02 INFO Configuration.deprecation: mapred.tip.id is deprecated. Instead, use mapreduce.task.id 
15/04/09 20:51:02 INFO Configuration.deprecation: mapred.task.id is deprecated. Instead, use mapreduce.task.attempt 
.id 

15/04/09 20:51:02 INFO Configuration.deprecation: mapred.task.is.map is deprecated. Instead, use mapreduce.task.ism 
ap 

15/04/09 20:51:02 INFO Configuration.deprecation: mapred.task.partition is deprecated. Instead, use mapreduce.task. 
partition 

15/04/09 20:51:02 INFO Configuration.deprecation: mapred.job.id is deprecated. Instead, use mapreduce.job.id 
15/04/09 20:51:03 INFO executor.Executor: Finished task 0.0 in stage 0.0 (TID 0). 1731 bytes result sent to driver 
15/04/09 20:51:03 INFO scheduler.DAGScheduler: Stage © (count at <console>:15) finished in 0.671 s 

15/04/09 20:51:03 INFO scheduler.TaskSetManager: Finished task 0.0 in stage 0.0 (TID 0) in 649 ms on localhost (1/1 


) 

15/04/09 20:51:03 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
15/04/09 20:51:03 INFO spark.SparkContext: Job finished: count at <console>:15, took 0.939313641 s 

res0: Long - 141 


可 以 看 到 ， 我 们 调用 se (SparkContext 的 实例 ) 的 textFile 方法 从 HDFS 文件 系统 加 载 了 一 
个 README. md 文件 ， 然 后 调用 RDD (变量 line) 的 count 方法 得 出 该 文件 一 共有 141 行 。 


转换 操作 


转换 操作 是 Spark RDD 的 两 大 核心 操作 之 一 ， 它 使 用 了 链 式 调 用 的 设计 模式 ， 对 一 个 
RDD 进行 计算 后 ， 变 换 成 另外 一 个 RDD， 然 后 这 个 RDD 又 可 以 进行 男 外 一 次 转换 。 这 个 过 
程 是 分 布 式 的 ， 它 必须 等 行动 操作 (action) 出 现 后 ， 才 真正 触发 Spark 提交 作业 ， 开 始 执 
行 计算 。 对 于 转换 操作 ， 可 以 分 为 两 类 : 一 类 是 对 Value 型 数据 进行 的 操作 ， 一 类 是 对 
Key - Value 类 型 进行 的 操作 。 

1. Value 型 数据 转换 操作 

(1) map 方法 将 原来 RDD 中 类 型 为 的 元 素 ， 通过 map 中 的 用 户 自 定义 函数 f 一 对 一 
地 映射 为 U 类 型 的 元 素 。 新 产生 的 RDD 的 实际 类 型 是 MappedRDD, 


def map[ U] (f: ( T) =U) (implicit arg0 :ClassTag[ U] ): RDD[U] 
Return a new RDD by applying a function to all elements of this RDD. 


(2) mapPartitions 与 map 转换 操作 类 似 ， 只 不 过 映射 函数 的 输入 参数 由 RDD 中 的 每 一 
个 元 素 变 成 了 RDD 的 中 的 每 一 个 分 区 的 迭代 磊 ， 在 函数 中 通过 这 个 分 区 的 迭代 妖 对 整个 分 
区 的 元 素 进行 操作 。 最 后 生成 的 MapPartitionRDD 。 


def mapPartitions[ U] (f: ( Iterator[ T] ) = Iterator [ U ] , preservesPartitioning : Boolean = false ) 
(implicit arg0 :ClassTag[ U] ) :RDD[ U] 
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Return a new RDD by applying a function to each partition of this RDD. 


(3) mapPartitionsWithIndex 和 mapPartitions 基本 类 似 ， 只 是 输入 参数 多 了 一 个 分 区 的 
TaskContext。 一 个 TaskContext 对 象 包含 一 个 Stageld 和 一 个 PartitionId 。 
Develdef mapPartitionsWithContext [| U ] ( f: ( TaskContext, Iterator[ T]) = Iterator [ U] , pre- 


servesPartitioning : Boolean = false) ( implicit arg0 :ClassTag[ U] ) :RDD[ U] 
Return a new RDD by applying a function to each partition of this RDD. 


(4) zip 方法 的 功能 是 将 两 个 RDD 组 成 后 成 键 值 对 〈Key - Value) 形式 的 RDD， 这 里 
默认 两 个 RDD 的 partition 数量 以 及 元 素数 量 都 相同 。 
def zip[U] ( other: RDD[ U] ) (implicit arg0 : ClassTag| U] ): RDD[ ( T,U) | 


Zips this RDD with another one , returning key — value pairs with the first element in each RDD sec- 


ond element in each RDD, etc 
(5) union 方法 是 将 两 个 RDD 集合 中 的 数据 进行 合并 ， 返 回 两 个 RDD 的 并 集 。 使 用 u- 
nion 需要 注意 的 是 要 保证 两 个 RDD 的 数据 类 型 一 致 ， 保 存 所 有 的 元 素 ， 并 不 会 去 掉 重 复 的 
元 素 。 


def union( other: RDD[ T] ) : RDD[ T] 


Return the union of this RDD and another one. 
(6) distinct 方法 是 将 RDD 执行 去 重 操 作 ， 操 作 的 结果 是 有 重复 的 元 素 只 保留 一 份 。 


def distinct( ) x RDD[ TI] 


Return a new RDD containing the distinct elements in this RDD. 


(7) filter 方法 是 对 RDD 中 的 元 系 进 行 过 滤 操 作 ， 对 RDD 中 的 每 个 元 系 应 用 f 函数 ， 返 
回 值 为 true 的 元 系 保 留 ， 返 回 值 为 false 的 元 素 将 被 过 滤 掉 ， 最 后 生成 一 个 FilteredRDD。 


def filter(f:( 工 ) 一 Boolean) : RDD[ T] 


Return a new RDD containing only the elements that satisfy a predicate. 


(8) toDebugString 方法 是 用 来 描述 RDD 和 它 依赖 的 父 RDD 之 间 的 关系 的 ， 我们 在 
spark - shell 中 经 常会 用 到 ， 来 查看 一 个 RDD 的 产生 在 中 间 经 过 了 那些 显 性 和 隐 性 的 trans- 


formation 操作 。 


def toDebugString : String 
A description of this RDD and its recursive dependencies for debugging. 


(9) 三 个 substact 方法 都 相当 于 进行 集合 的 差 操 作 ，RDD1 去 除 RDDI 和 RDD2 交集 中 
的 所 有 元 素 。 

第 一 个 subtract 中 的 参数 Partitioner 表明 可 以 选用 Hash 或 者 Range 分 区 ， 第 二 个 substact 
方法 中 的 numPartition 表示 可 以 指定 分 区 个 数 ， 第 三 个 subtract 方法 使 用 的 是 RDD1 默认 的 分 
区 数 。 


def subtract (other: RDD[ T] , p:Partitioner) ( implicit ord:Ordering[ T] = null) : RDD[ T] 


Return an RDD with the elements from this that are not in other. 
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def subtract( other: RDD[ T] ,numPartitions : Int) : RDD[ T] 


Return an RDD with the elements from this that are not in other. 


def subtract( other: RDD[ T] ) : RDD[ T] c 


Return an RDD with the elements from this that are not in other. 
(10) coalesce 和 repartition 方法 都 是 对 RDD 分 区 的 重新 划分 。repartition 只 是 coalesce 
方法 中 shuffle 为 true Hj ft] ASCH. Shuffle 为 true 的 情况 指 的 是 的 需要 重新 划分 成 的 分 区 个 
数 比 原来 的 RDD 的 分 区 个 数 多 


def coalesce ( numPartitions :Int,shuffle : Boolean = false) ( implicit ord: Ordering[ T] = null) : RDD 
[T] 


Return a new RDD that is reduced intonumPartitions partitions. 


def repartition ( numPartitions : Int) (implicit ord :Ordering| T] = null) : RDD[ T] 
Return a new RDD that has exactlynumPartitions partitions. 
(11) sample 方法 是 将 RDD 集合 中 的 元 系 进 行 采 样 ， 返 回 原来 元 素 的 一 个 子 集 。 用 户 
可 以 通过 传 参 设 定 是 否 有 放 回 的 抽样 、 百 分 比 、 随 机 种 子 ， 进 而 决定 采用 何 种 抽样 方式 。 


def sample ( withReplacement : Boolean , fraction: Double, seed: Long = Utils. random. nextLong ) : 
RDD[T] 
Return a sampled subset of this RDD. 


(12) preferredLocations 方法 可 以 通过 传人 的 参数 split 来 指定 RDD 的 优先 计算 位 置 。 


final def preferredLocations ( split : Partition) : Seq[ String | 


Get the preferred locations of a partition (as hostnames ) , taking into account whether the RDD isch- 


eckpointed. 


(13) 这 三 个 intersection 方法 都 是 指 返回 两 个 RDD 的 交集 ， 并 且 交 集中 不 会 包含 相同 
Mou. Bp SS numPartitions 的 intersection 方法 可 以 指定 eas 第 二 个 带 参 数 
Partitioner 的 intersection 方法 可 以 选择 采用 Hash 分 区 还 是 Range 分 区 ， 三 个 intersection 77 
法 的 分 区 大 小 使 用 的 调用 它 的 RDD 的 分 区 大 小 。 


def intersection ( other : RDD[ T ] ,numPartitions :Int) : RDD[ T] 


Return the intersection of this RDD and another one. 


def intersection ( other: RDD [ T ] , partitioner: Partitioner ) ( implicit ord: Ordering [ T] = null): 
RDD[ T] 


Return the intersection of this RDD and another one. 


def intersection ( other: RDD[ T] ) : RDD[ T] 


Return the intersection of this RDD and another one. 


(14) groupBy J& I] x Ff 26 Je 38b 3E PK CE ^E JURE RS] Key， 数 据 格式 就 转换 为 键 值 对 
(key - value) 形式 ， 之 后 将 Key 相同 的 元 素 分 为 一 组 。 
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def groupBy[ K] (f:(T)—K,numPartitions: Int) ( implicit kt: ClassTag[ K |) : RDD[ ( K,Iterable 
[T])] 
Return an RDD of grouped elements. 
(15) glom 方法 是 将 RDD 中 的 每 一 个 分 区 中 类 型 为 了 的 元 素 转换 成 数组 Array | T], Rx 
后 返回 的 RDD 类 型 是 GlommedRDD, 


def glom( ) :RDD[ Array[ T] | 


Return an RDD created by coalescing all elements within each partition into an array. 
(16) flatMap 方法 则 是 将 原来 RDD "PAY BET Z6 2S I KA PERRO TIN GR, FREE 
成 的 RDD 的 每 个 集合 中 的 元 素 合并 为 一 个 集合 。 


def flatMap[ U] ( f: ( T) 2 TraversableOnce[ U] ) (implicit arg0 :ClassTag[ U] ) : RDD[U] 
Return a new RDD by first applying a function to all elements of this RDD , and then flattening the re- 


sults. 
(17) randomSplit 方法 是 根据 参数 weights 权重 将 一 个 RDD 切 分 成 多 个 RDD。 


def randomSplit ( weights: Array [ Double | , seed: Long = Utils. random. nextLong ) : Array[ RDD 
[T]] 
Randomly splits this RDD with the provided weights. 
2. Key - Value 型 RDD 转换 操作 
(1) mapValue 方法 和 flatMapValue 方法 是 对 | Key - Value] 类 型 的 数据 中 的 V 值 分 别 
进行 map 操作 和 flatMap 操作 。 


def mapValues[ U] (f: ( V) 3U) : RDD[ (K,U)] 
Pass each value in the key — value pair RDD through a map function without changing the keys; this 


also retains the original RDD' s partitioning. 


def flatMapValues[ U] (f: ( V) 2 TraversableOnce[ U] ) :RDD[ (K,U) ] 
Pass each value in the key - value pair RDD through aflatMap function without changing the keys; 


this also retains the original RDD' s partitioning 


(2) partitionBy 方法 是 对 RDD 进行 分 区 操作 。 如 果 原 有 RDD 的 分 区 秀和 现在 分 区 天 
(partitioner) 一 致 ， 则 不 重新 分 区 。 如 末 不 一 致 ， 则 会 根据 分 区 般 生 成 一 个 新 的 Shuffle- 
dRDD, 


def partitionBy ( partitioner : Partitioner) : RDD[ (K,V) ] 
Return a copy of the RDD partitioned using the specified partitioner. 


(3) combineByKey 方法 是 将 RDD[K,V | 转换 成 返回 类 型 RDD[ K,C], createCombiner ffi 
责 如 何 将 value 转换 成 combine 的 输入 C, mergeCombiners 定义 如 何 合 并 两 个 C，mergeValue 
定义 如 何 将 新 来 的 V 与 已 有 的 C 合并 ，partitioner 指定 分 区 ，MapSideCombine 指定 是 否 需 要 
在 Map 端 进行 combine 操作 。 


def combineByKey [ C | ( createCombiner: ( V) 2 C, mergeValue: ( C, V) 2 C, mergeCombiners: 
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Simplified version ofcombineByKey that hash - partitions the resulting RDD using the existing parti- 


tioner/parallelism level. 


def combineByKey [ C | ( createCombiner: ( V) 2 C, mergeValue: ( C, V) 2 C, mergeCombiners: © 
(C,C)=C,numPartitions: Int) :RDD[ (K,C) ] 
Simplified version ofcombineByKey that hash — partitions the output RDD. 


def combineByKey [ C | ( createCombiner : ( V) 2 C, mergeValue: ( C, V) 2 C, mergeCombiners: 
(C, C) 2 €, partitioner: Partitioner , mapSideCombine: Boolean = true, serializer: Serializer = 
null) : RDD[ (K,C) ] 


Generic function to combine the elements for each key using a custom set of aggregation functions. 


(4) reduceByKey 方法 在 一 个 (K,V ) 对 的 数据 集 上 使 用 时 ， 返 回 一 个 (K,V) 对 的 数据 
R, key 相同 的 值 ， 都 被 使 用 指定 的 reduce 函数 聚合 到 一 起 。 在 reduceByKey 方法 内 部 会 继 
续 调 用 combineByKey [ C] ( createCombiner : ( V) 一 C,mergeValue: ( C, V) = C, mergeCom- 
biners: ( C, C) 3C, numPartitions: Int) : RDD[(K,C) | 方法 , numPartitions 会 被 包装 成 new 
HashPartitioner( numPartitions ) 。 


def reduceByKey ( func: ( V, V) 2 V ,numPartitions:Int) : RDD[ (K,V) | 


Merge the values for each key using an associative reduce function. 


(5) foldByKey 方法 类 似 于 reduceByKey 方法 ， 只 是 在 reduce 函数 聚合 的 时 候 可 能 会 加 
上 zeroValue 的 值 。 


def foldByKey ( zeroValue: V , numPartitions : Int) (func: ( V, V) 3V) : RDD[ (K,V) | 
Merge the values for each key using an associative function and a neutral " zero value" which may be 


added to the result an arbitrary number of times, and must not change the result ( e. 


(6) groupByKey 方法 在 一 个 由 (K,V) 对 组 成 的 数据 集 上 调用 ， 返 回 一 个 〈(K,Seq[V]) 
对 的 数据 集 。 在 groupByKey 方法 内 部 也 是 使 用 了 comBineByKey 方法 来 完成 操作 最 终 的 实 
FL, TE groupByKey 方法 内 部 首先 会 将 createCombiner mergeValue 和 mergeCombiners 这 三 个 


国 数 具 体 化 ， 然 后 再 将 这 三 个 函数 作为 参数 传递 给 groupByKey 方法 内 部 的 comBineByKey 方 
法 。 下 面 是 createCombiner, mergeValue 和 eno 这 三 个 函数 的 具体 实现 : 


defcreateCombiner( v: V) = ArrayBuffer( v) 
defmergeValue (buf; ArrayBuffer[ V | , v; V) 2 buf += v 
defmergeCombiners ( bl : ArrayBuffer| v | , b2: ArrayBuffer[ v] 2 bl ++= b2) 


bufs = combineByKey| Arraybuffer[ V] | () 。 逻 辑 是 将 同一 个 Key 的 value 简单 地 放 到 一 个 
ArrayBuffer 里 ， 最 后 返回 bufs. asInstanceOf[ RDD[ (K. Seq| V]) J | 


def groupByKey ( numPartitions : Int) : RDD[ ( K,Iterable[ V] ) | 


Group the values for each key in the RDD into a single sequence. 


(7) 当 有 两 个 key - Value 类 型 的 元 素 (K,V) ACK, W) HS, cogroup 方法 返回 的 是 (K,Seq 
[V], SeqUW ] BIER T Vds, numPartitions 为 并 发 的 任务 数 。 
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def cogroup[ W | ( other: RDD[ ( K, W) | , numPartitions: Int) : RDD[ ( K,(Iterable[ V ] , Iterable 
[W]))] 


For each key k in this or other, return a resulting RDD that contains atuple with the list of values for 


that key in this as well as other. 


(8) join 方法 是 对 两 个 需要 连接 的 RDD 进行 cogroup 操作 ， 然 后 对 每 个 key 下 的 元 系 进 
行 笛 卡 尔 积 操作 ， 返 回 的 结果 再 展 平 。 


def join| W | ( other: RDD[ ( K,W) | ,numPartitions :Int) : RDD[ (K,( V,W))] 


Return an RDD containing all pairs of elements with matching keys in this and other. 
(9) leftOutJoin 方法 与 join 方法 一 样 ， 虱 是 针对 RDD[ K,V ] rp K 值 相 等 的 连接 操作 ， 分 
别 对 应 于 左 外 连接 和 内 连接 ， 最 终 都 会 调用 cogroup 函数 来 实现 。 
def leftOuterJoin [ W] ( other: RDD[( K, W ) ] , numPartitions: Int) : RDD [ ( K, ( V, Option 
[W]))] 


Perform a left outer join of this and other. 


(10) SortByKey 方法 是 按照 Key 的 大 小 进行 排序 ， 默 认 是 升序 的 方式 排序 ， 如 有 果 想 降 
序 排序 ， 设 置 Boolean 为 false, 


def sortByKey ( ascending : Boolean = true ,numPartitions : Int = self. partitions. size) : RDD[ ( K,V) ] 


Sort the RDD by key,so that each partition contains a sorted range of the elements. 


标量 行动 操作 | 


Action 操作 是 和 transformation 操作 相对 应 的 另外 一 种 RDD 的 核心 操作 ， 在 Spark 的 程序 
运行 中 ， 每 调用 一 次 Action 操作 ， 都 会 触发 一 次 Spark 的 作业 提交 并 返回 相应 的 结果 。 从 目 
前 Spark 提供 的 API KÆ, Action 操作 可 以 分 为 以 下 两 种 类 型 ; 

(1) Action 操作 将 标量 或 者 集合 返回 给 Spark 的 客户 端 程序 ， 比 如 返回 RDD 中 数据 集 
的 数量 或 者 是 返回 RDD 中 的 一 部 分 符合 条 件 的 数据 。 

(2) Action 操作 将 RDD 直接 保存 到 外 部 文件 系统 或 者 数据 库 中 ， 比 如 将 RDD 保存 到 
HDFS 文件 系统 中 。 

1. Scala 集合 标量 Action 操作 

(1) count 方法 返回 RDD 中 元 素 的 个 数 。 


def count( ) :Long 


Return the number of elements in the RDD. 
(2) collect 方法 相当 于 toArray, toArray 已 经 过 时 不 推荐 使 用 ，collect 将 分 布 式 的 RDD 
返回 为 一 个 单机 的 scala Array 数组 。 


def collect( ) :Array[T] 


Return an array that contains all of the elements in this RDD. 


(3) reduce 方法 相当 于 对 RDD 进行 reduceleft 方法 的 操作 。reduceLeft 先 对 两 个 元 素 
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Key - Value 进行 reduce 操作 ， 然 后 将 结 末 和 和 迭代 需 取 出 的 下 一 个 元 素 进行 reduce RE, A 
BA ari Se ACA, FEB ITAA o 
def reduce(f:(T,T)=T) :T 
Reduces the elements of this RDD using the specified commutative and associative binary operator. > 
(4) take 方法 将 RDD 作为 集合 ， 返 回 结合 中 [0 ,num -1 下 标的 元 系 。 
def take ( num Int) : Array[ T] 
Take the first num elements of the RDD. 
(5) first 方法 返回 RDD 的 第 一 个 元 素 。 


def first( ) :T 
Return the first element in this RDD. 


(6) fold 方法 是 aggregate 的 便利 接口 ， 其 中 ，op 操作 既是 seqOp 操作 也 是 combOp f 
作 ， 且 最 终 的 返回 类 型 也 是 T， 即 与 RDD 中 的 每 一 个 元 素 的 类 型 是 一 样 的 。 


def fold ( zeroValue:T) (op: (T, T) 2T) :T 


Aggregate the elements of each partition , and then the results for all the partitions , using a given asso- 


ciative function and a neutral "zero value". 
(7) foreach 方法 在 数据 集 的 每 一 个 元 素 上 ， 运 行 函 数 f。 i8 40$ HIT SGT P ERI AE 
量 ， 或 者 和 外 部 存储 系统 做 交互 。 
def foreach (f: (T)— Unit) :Unit 
Applies a function f to all elements of this RDD. 
(8) lookup 方法 是 针对 Key - Value 类 型 的 操作 ， 对 于 给 定 的 值 ， 返 回 与 此 键 值 对 应 的 
所 有 值 。 


def lookup ( key : K) :Seq|[ V] 
Return the list of values in the RDD for key key. 


(9) takeOrdered 方法 返回 最 小 的 num AIR, FF HAR E B ZR PRR AR BI 


def takeOrdered (num: Int) (implicit ord : Ordering| T] ) : Array[ T] 
Returns the first K ( smallest) elements from this RDD as defined by the specified implicit Ordering 


[T] and maintains the ordering. 


(10) top 方法 返回 最 大 的 num 个 元 素 。 


def top( num: Int) (implicit ord : Ordering[ T] ) : Array[ T] 
Returns the top K (largest) elements from this RDD as defined by the specified implicit Ordering 
[T]. 


(11) aggregate 操作 主要 需要 提供 两 个 函数 ， 一 个 是 seqOp 函数 ， 其 将 RDD (RDD 中 的 
每 个 元 素 的 类 型 是 T) 中 的 每 一 个 分 区 的 数据 聚合 成 类 型 为 U 的 值 。 为 一 个 是 combOp 函数 
将 各 个 分 区 聚合 起 来 的 值 合并 在 一 起 得 到 最 终 类 型 为 U 的 返回 值 。 这 里 的 RDD 的 元 素 类 型 
和 返回 值 的 类 型 U 可 以 为 同一 个 类 型 。 


©, 
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def aggregate[ U | ( zeroValue: U) (seqOp: (U, T) 2U,combOp: (U, U) =U) (implicit argO : 
ClassTag[ U] ) :U 
Aggregate the elements of each partition , and then the results for all the partitions , using given com- 


bine functions and a neutral "zero value". 


2. 输出 数据 到 外 部 文件 存储 系统 的 Action 操作 

RDD 最 后 的 归 窒 除了 可 以 返回 为 集合 和 标量 ,， 也 可 以 存储 到 外 部 文件 系统 或 者 数据 库 
H, Spark 系统 与 Hadoop 系统 是 完全 兼容 的 ， 所 以 对 于 MapReduce 所 支持 的 读 写 文件 或 者 
数据 库 类 型 ，Spark 也 同样 文 持 。 另 外 ,由 于 Hadoop 的 API 有 新 旧 两 个 版 本 ， 所 有 Spark 为 
了 能 够 兼容 Hadoop 所 有 的 版 本 ， 也 提供 了 两 套 API。 

(1) saveAsObjectFile 方法 生成 包含 序列 化 对 象 的 SequenceFile 写 到 本 地 或 者 hadoop 文件 
系统 。 


def saveAsObjectFile ( path: String) : Unit 


Save this RDD as aSequenceFile of serialized objects. 


(2) saveAsTextFile 方法 将 数据 集 的 元 素 ， 以 textfile 的 形式 ， 保 存 到 本 地 文件 系统 ， 
hdfs 或 者 任何 其 他 hadoop 支持 的 文件 系统 。 上 具体 来 说 ， 在 SaveAsTextFile 方法 内 部 会 先 通 过 
调用 RDD 的 map( x => (NullWritable. get( ) ,new Text( x. toString) ) ) 方 法 将 RDD 中 的 每 个 元 
素 转换 为 文件 中 的 一 行文 本 ， 然 后 在 SaveAsTextFile 方法 内 部 会 继续 调用 save AsHadoopFile 
方法 将 数据 保存 到 本 地 文件 系统 或 者 Hadoop 文 持 的 文件 系统 。 


def saveAsTextFile( path: String ) : Unit 


Save this RDD as a text file, using string representations of elements. 


(3) saveAsHadoopDataset 方法 的 参数 类 型 JobConf, JobConf 是 Hadoop 的 配置 对 象 ，Job- 
Conf 既 可 以 通过 它 的 setInputFormat 方法 来 指定 输入 路 径 集 合 ， 也 可 以 通过 setOutputFormat 
方法 设置 任务 结果 输出 路 径 ， 所 以 在 这 里 saveAsHadoopDataset 方法 不 仅 能 将 RDD 存储 到 
HDFS 文件 系统 中 ,也 可 以 将 RDD 存储 到 其 他 数据 库 中 ， 如 Hbase, MangoDB, 
Cassandra 等 。 


def saveAsHadoopDataset ( conf : JobConf) : Unit 
Output the RDD to anyHadoop - supported storage system, using a Hadoop JobConf object for that 


storage system. 


(4) saveAsHadoopFile 方法 文 持 RDD 存储 到 Hadoop 文 持 的 文件 系统 (比如 HDFS) 中 。 
将 RDD 保存 到 Hadoop 支持 的 文件 系统 中 通常 情况 下 考虑 五 个 参数 ， 包 括 文件 保存 的 路 径 、 
RDD 中 key 的 类 型 ，RDD 中 value 的 类 型 、RDD 的 输出 格式 (outputFormat， 如 TextOutput- 
Format, SequenceFileOutputFormat) ， 以 及 参数 codec 是 否 需 要 进行 压缩 。 

1) 第 一 个 saveAsHadoopFile 方法 中 的 参数 列表 中 需要 传人 path (文件 保存 的 路 径 )、 
keyClass ( RDD 中 key 值 的 类 型 ) 、valueClass ( RDD 中 value 值 的 类 型 )、outputFormatClass 
(RDD 的 输入 格式 ) 以 及 参数 codec 的 默认 值 None。 


def saveAsHadoopFile ( path: String, keyClass: Class [ _ ] , valueClass: Class[ _ ] , outputFormat- 
Class: Class[ _ < : OutputFormat[ , _] ] , conf: JobConf =... , codec: Option [ Class [ _ < : Com- 
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pressionCodec | | = None) : Unit 
Output the RDD to anyHadoop - supported file system, using a Hadoop OutputFormat class support- 


ing the key and value types K and V in this RDD. 
2) 第 二 个 saveAsHadoopFile 方法 中 的 参数 列表 中 需要 传人 path Geli temo, O 
keyClass (RDD 中 key 值 的 类 型 ) 、valueClass ( RDD 中 value 值 的 类 型 ) outputFormatClass 
(RDD 的 输入 格式 ) 以 及 参数 codec 的 值 。 


def saveAsHadoopFile ( path: String, keyClass: Class [ _ ] , valueClass: Class [ _ ] , outputFormat- 
Class : Class[ _ < :OutputFormat[. , |],codec:Class| _ < : CompressionCodec | ) : Unit 

Output the RDD to anyHadoop - supported file system, using a Hadoop OutputFormat class support- 
ing the key and value types K and V in this RDD. 


3) 第 三 个 saveAsHadoopFile 方法 中 的 参数 列表 中 需要 传人 path (文件 保存 的 路 径 ) 和 
参数 codec 的 值 。 


def saveAsHadoopFile[ F < : OutputFormat[ K, V | | ( path : String ,codec:Class| _ < : Compression- 
Codec] ) ( implicit fm : ClassTag| F] ) : Unit 

Output the RDD to anyHadoop - supported file system, using a Hadoop OutputFormat class support- 
ing the key and value types K and V in this RDD. 


4) 第 四 个 saveAsHadoopFile 方法 中 的 参数 列表 中 只 需要 传人 path 〈 文 件 保存 的 路 径 ) 。 


def saveAsHadoopFile[ F < : OutputFormat| K , V | | ( path :String) (implicit fm: ClassTag| F | ) : Unit 


Output the RDD to anyHadoop - supported file system, using a Hadoop OutputFormat class support- 
ing the key and value types K and V in this RDD. 


(5) 针对 新 版 本 Hadoop API 提供 了 三 个 action 操作 ， 与 旧版 本 的 Hadoop 的 函数 使 用 方 
法 类 似 ， 后 两 个 API 支持 将 RDD 保存 到 HDFS 中 ， 而 saveAsNewAPIHadoopDataser 则 支持 所 
有 MapReduce 兼容 的 输入 输出 类 型 。 


def saveAsNewAPIHadoopDataset( conf : Configuration ) : Unit 
Output the RDD to anyHadoop - supported storage system with new Hadoop API, using a Hadoop 


Configuration object for that storage system. 


def saveAsNewAPIHadoopFile ( path: String , keyClass: Class [ ], valueClass: Class [ _ | , outputFormat- 
Class :Class[  «:OutputFormat[ , ]],conf:Configuration = self. context. hadoopConfiguration) : Unit 
Output the RDD to anyHadoop - supported file system , using a new Hadoop API OutputFormat ( ma- 


preduce. 


def saveAsNewAPIHadoopFile[ F < : OutputFormat [ K, V ] | ( path: String) ( implicit fm: ClassTag 
[F] ) : Unit 
Output the RDD to anyHadoop - supported file system , using a new Hadoop API OutputFormat ( ma- 


preduce. 
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对 于 控制 操作 ， 一 般 是 分 为 persist 操作 (持久 化 操作 ) 和 checkpoint 操作 。 下 面 我 们 分 
析 一 下 这 两 种 类 型 的 操作 。 

在 Spark 中 通过 对 RDD 进行 持久 化 操作 可 以 实现 RDD 的 容错 ， 针 对 这 一 点 Spark 有 多 
种 缓存 策略 ， 既 可 以 将 RDD 持久 化 在 内 存 中 ， 也 可 以 持久 化 在 磁盘 中 ， 后 续 的 操作 可 以 重 
复 使 用 这 些 持 和 久 化 的 数据 。 需 要 注意 的 一 点 是 ，Spark RDD 的 持久 化 操作 并 没有 在 原来 的 
RDD 的 基础 上 产生 新 的 RDD， 它 只 是 改变 了 RDD 的 元 数据 信息 。 

1. 持久 化 操作 

(1) persist( ) 方 法 是 把 RDD 数据 缓存 到 内 存 。 

def persist( ) : RDD. this. type 
Persist this RDD with the default storage level (MEMORY ONLY). 

(2) persist( newlevel) 方 法 会 根据 newLevel 参数 的 实际 值 不 同 ， 把 数据 持久 化 到 不 同 的 

存储 介质 中 。 


def persist( newLevel : StorageLevel ) : RDD. this. type 


Set this RDDS storage level to persist its values across operations after the first time it is computed. 
(3) cache 方法 和 不 传 参 数 的 persist( ) 方 法 功能 一 致 ， 因 为 它 的 实现 就 是 调用 persist ( ) 
方法 ， 他 们 都 是 把 RDD 数据 只 缓存 到 内 存 中 ， 如 果 数 据 溢出 ， 数 据 将 丢失 。 
def cache( ) :RDD. this. type 
Persist this RDD with the default storage level ( MEMORY, ONLY ). 
(4) unPersis 方法 对 RDD 进行 标记 ， 解 除 它 的 持久 化 ， 原 来 存储 在 内 存 和 磁盘 的 数据 
将 被 清除 。 
def unpersist( blocking : Boolean - true) :RDD. this. type 


Mark the RDD as non - persistent , and remove all blocks for it from memory and disk. 
2. checkpoint 操作 
checkpoint 是 将 RDD 持久 化 在 HDFS 中 ， 与 persist (如 果 也 持久 化 在 磁盘 上 ) 的 一 个 区 
别 是 checkpoint 将 会 切断 此 RDD 之 前 的 依赖 关系 ， 而 persist 方法 依然 保留 者 RDD 的 依赖 关 
系 。Checkpoint 的 作用 有 以 下 两 点 : 对 于 一 个 长 时 间 运 行 的 Spark 程序 ， 定 期 进行 checkpoint 
操作 能 有 效 节 省 系统 资源 ;checkpoint 可 以 使 Spark 具有 很 强 的 容错 能 
def checkpoint ( ) : Unit 
Mark this RDD forcheckpointing. 


<5), Spark Shell 下 的 Spark API 编程 实践 


Spark Shell 是 Spark 的 交互 式 脚本 〈 或 者 称 作 交互 式 工具 ) ， 是 一 种 学 习 API 的 简单 途 
径 ， 也 是 分 析 数 据 集 交互 的 有 力 工 具 。 下 面 我 们 演示 用 Spark Shell 操作 Spark API, 


Spark RDD5Spark AP1 编 程 实践 


3.3.1 Local 模式 下 实践 map, filter 和 collect 方法 


(1) 以 Local 方式 启动 Spark Shell 


root@SparkMaster:/# spark-shell 

Spark assembly has been built with Hive, including Datanucleus jars on classpath 
15/04/18 22:26:43 INFO spark.SecurityManager: Changing view acls to: root, 

15/04/18 22:26:43 INFO spark.SecurityManager: Changing modify acls to: root, 
15/04/18 22:26:43 INFO spark.SecurityManager: SecurityManager: authentication disabl 
ed; ui acls disabled; users with view permissions: Set(root, ); users with modify pe 
rmissions: Set(root, ) 

15/04/18 22:26:43 INFO spark.HttpServer: Starting HTTP Server 

15/04/18 22:26:44 INFO server.Server: jetty-8.y.z-SNAPSHOT 

15/04/18 22:26:44 INFO server.AbstractConnector: Started SocketConnector(00.0.0.0:607 
56 

15/04/18 22:26:44 INFO util.Utils: Successfully started service 'HTTP class server' 
on port 60756. 

Welcome to 


ona Sh UM ew. ak 
Jd IC. LINN version 1.1.6 
We 


Using Scala version 2.18.4 (Java HotSpot(TM) Client VM, Java 1.7.0 67) 
Type in expressions to have them evaluated. 


(2) 通过 SparkContext 提供 的 parallelize 方法 把 Scala 的 集合 转化 为 RDD， 然 后 对 RDD 

eu che filter 操作 ， 最 后 返回 一 个 单机 数组 给 用 户 。 这 里 需要 注意 的 是 collect 方法 不 

舌 合 用 于 操作 数据 量 大 的 场景 ， 因 为 它 返回 的 结果 是 一 个 单机 数组 ， 数 据 量 大 的 话 ， 会 有 很 
多 LO 开销 ， 一 般 只 用 Collect 方法 来 进行 一 些 人 简单 的 测试 。 


scala> val listRDD = sc.parallelize(List(6,8,12,34,23)) 
listRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at parallelize at <console>:12 


scala» val filterRDD = listRDD.filter( > 10) 
filterRDD: org.apache.spark.rdd.RDD[Int] = FilteredRDD[5] at filter at <console>:14 


scala» filterRDD.collect 

15/04/09 20:58:13 INFO spark.SparkContext: Starting job: collect at «console»:17 

15/04/09 20:58:13 INFO scheduler.DAGScheduler: Got job 1 (collect at «console»:17) with 1 output partitions (allowLoca 

l=false) 

15/04/09 20:58:13 INFO scheduler.DAGScheduler: Final stage: Stage i(collect at <console>:17) 

15/04/09 20:58:13 INFO scheduler.DAGScheduler: Parents of final stage: List() 

15/04/09 20:58:13 INFO scheduler.DAGScheduler: Missing parents: List() 

15/04/09 20:58:13 INFO scheduler.DAGScheduler: Submitting Stage 1 (FilteredRDD[5] at filter at «console»:14), which ha 
s no missing parents 

15/04/09 20:58:13 INFO storage.MemoryStore: ensureFreeSpace(1680) called with curMem-316338, maxMem-280248975 

15/04/09 20:58:13 INFO storage.MemoryStore: Block broadcast 3 stored as values in memory (estimated size 1680.0 B, fre 

e 267.0 MB) 

15/04/09 20:58:13 INFO scheduler.DAGScheduler: Submitting 1 missing tasks from Stage 1 (FilteredRDD[5] at filter at «c 

onsole»:14) 

15/04/09 20:58:13 INFO scheduler.TaskSchedulerImpl: Adding task set 1.0 with 1 tasks 

15/04/09 20:58:13 INFO scheduler.TaskSetManager: Starting task 0.0 in stage 1.0 (TID 1, localhost, PROCESS LOCAL, 1112 
bytes) 

15/04/09 20:58:13 INFO executor.Executor: Running task 0.0 in stage 1.0 (TID 1) 

15/04/09 20:58:13 INFO executor.Executor: Finished task 0.0 in stage 1.0 (TID 1). 580 bytes result sent to driver 
15/04/09 20:58:13 INFO scheduler.DAGScheduler: Stage 1 (collect at «console»:17) finished in 0.013 s 

15/04/09 20:58:13 INFO spark.SparkContext: Job finished: collect at <console>:17, took 0.022899514 s 

resi: Array[Int] - Array(12, 34, 23) 


集群 模式 下 实践 textFile, sortByKey 和 saveAstext 


File 方法 
(1) 启动 HDFS。 这 里 我 们 的 Spark 集群 只 用 到 了 Hadoop 的 HDFS 文件 系统 ， 所 以 没 必 


Spark 


要 开启 Hadoop 的 所 有 功能 ， 


root@SparkMaster: /usr/local/hadoop/hadoop-2.4.1/sbin# ls 


distribute-exclude. 
hadoop-daemon.sh 
hadoop-daemons 


hdfs-config.cmd 


hdfs- 
httpfs 


config.sh 
.Sh 

nr-jobhistory-daemon.sh 
refresh-namenodes 


slaves.sh 
root@SparkMaster: /usr/Local/hadoop/hadoop-2.4.1/sbin# ./start-dfs.sh 
Starting namenodes on [SparkMaster] 
SparkMaster: starting namenode, logging to /usr/local/hadoop/hadoop-2.4.1/logs/h 
adoop-root-namenode-SparkMaster.out 
SparkWorkeri: starting datanode, logging to /usr/local/hadoop/hadoop-2.4.1/logs/ 
hadoop-root-datanode-SparkWorker1.out 
SparkWorker2: starting datanode, logging to /usr/local/hadoop/hadoop-2.4.1/109gs/ 
hadoop-root-datanode-SparkWorker2.out 
Starting secondary namenodes [0.0.0.0] 
8.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/hadoop-2.4.1/1 
ogs/hadoop-root-secondarynamenode-SparkMaster.out 


(2) 启动 Spark 集群 。 这 里 需要 注意 一 
命令 ， 为 了 避免 冲突 ， 


[11 


start — all. sh" 


.Sh 


sh start-all.cmd 


开启 HDFS 即 可 。 
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stop-all.sh 


start-all.sh stop-balancer.sh 
start-balancer.sh stop-dfs.cmd 
start-dfs.cmd stop-dfs.sh 
start-dfs.sh stop-secure-dns.sh 
start-secure-dns.sh  stop-yarn.cmd 


start-yarn.cmd 
start-yarn.sh 
stop-all.cmd 


,Sh 


这 里 输入 “ 


stop-yarn.sh 
yarn-daenon.sh 


yarn-daemons. 


sh 


点 : 因为 在 Hadoop 的 sbin 目录 下 ， 
. /start — all. sh” 表示 当前 


目录 下 的 命 


root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4/sbin# ls 


h 


root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4/sbin# ./start-all.sh 


starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/spark-1.1.0-bin-hadoop2.4/sbin/../logs/ 


spark-root-org.apache.spark.deploy.master.Master-1-SparkMaster.out 


SparkWorker2: 


starting org.apache.spark.deploy.worker.Worker, 


logging to /usr/local/spark/spark-1.1.0-bin-hadoop2.4 


/[ sbin/../logs/spark-root-org.apache.spark.deploy.worker.Worker-1-SparkWorker2.out 


SparkWorkeri: starting org.apache.spark.deploy.worker.Worker, 


logging to /usr/local/spark/spark-1.1.0-bin-hadoop2.4 


/sbin/../logs/spark-root-org.apache.spark.deploy.worker.Worker-1-SparkWorkeri.out 
SparkWorker2: failed to launch org.apache.spark.deploy.worker.Worker: 


SparkWorker2: 
SparkWorker2: 


Error: 


y.worker.Worker-1-SparkWorker2.out 


(3) 让 Spark Shell 运行 在 Spark 集群 上 。 通 过 Spark - shell 附加 的 参数 master 的 设置 ， 
的 程序 提交 到 Spark 集群 中 。 如 果 想 了 解 更 多 的 spark - 


就 可 以 使 得 在 spark - shell 中 运 
shell 附加 参数 信息 JUS 9 可 以 在 命 DAYS < 


ME ee 


Z= 1T 


Error: Could not create the Java Virtual Machine. 
A fatal exception has occurred. Program will exit. 
SparkWorker2: full log in /usr/local/spark/spark-1.1.0-bin-hadoop2.4/sbin/../logs/spark-root-org.apache.spark.deplo 


root@SparkMaster: /# spark-shell --master spark://SparkMaster:7077 
Spark assembly has been built with Hive, including Datanucleus jars on classpath 


15/04/09 21: 
15/04/09 21: 
15/04/09 21: 
permissions: 
15/04/09 21: 
15/04/09 21: 
15/04/09 21: 
15/04/09 21: 


Welcome to 
ia Em 
SN We 

| ae | 


16:17 INFO 
16:17 INFO 
16:17 INFO 
Set(root, 
16:17 INFO 
16:17 INFO 
16:17 INFO 
16:17 INFO 


spark.SecurityManager: 
spark.SecurityManager: 
spark.SecurityManager: 
); users with modify permissions: 
spark.HttpServer: 
server.Server: 
server .AbstractConnector: 
util.Utils: 


EN I: ae 


M ue 


= S 
aad ael Vaf Nc 


' 


version 1.1.0 


Changing view acls to: 
Changing modify acls to: 
SecurityManager: 


Set(root, ) 


Starting HTTP Server 
jetty-8.y.z-SNAPSHOT 

Started SocketConnector@0.0.0.0:33172 
Successfully started service 'HTTP class server' 


‘spark — shell —— help" 


root, 


Using Scala version 2.10.4 (Java HotSpot(TM) Client VM, Java 1.7.0 67) 
Type in expressions to have them evaluated. 


J 查看 。 


命令 进行 


root, 
authentication disabled; ui acls disabled; users with view 


on port 33172. 


Type :help for more information. 


15/04/09 21: 
15/04/09 21: 
15/04/09 21: 
permissions: 
15/04/09 21: 
15/04/09 21: 
15/04/09 21: 


(4) 读 取 HDFS Ei “README. md” 文 件 ， 


16:21 INFO 
16:21 INFO 
16:21 INFO 
Set(root, 
16:22 INFO 
16:22 INFO 
16:22 INFO 


spark.SecurityManager: 
spark.SecurityManager: 


Changing view acls to: 


Changing modify acls to: 


spark.SecurityManager: 


); users with modify permissions: 
Slf4jLogger started 


slf4j.Slf4jLogger: 
Remoting: Starting remoting 


Remoting: Remoting started; listening on addresses 


然后 对 数据 进行 降序 排序 ， 最 后 用 saveAs- 


SecurityManager: 


Set(root, ) 


root, 


root, 
authentication disabled; ui acls disabled; users with view 


: [akka.tcp://sparkDriver@SparkMaster : 60233] 


TextFile 操作 把 结果 保存 到 HDFS X TFI] “output” HR Fo Spark 的 排序 功能 比 MapReduce 
强 很 多 ， 即 使 在 不 使 用 Spark 内 存 迭 代 计 算 优 势 的 情况 下 ， 仪 仅 使 用 MapReduce 十 分 之 一 的 
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计算 资源 ， 相 同 数 据 的 排序 上 ，Spark 比 MapReduce 快 了 整整 三 倍 。 


scala» sc.textFile("/data/README.md").flatMap( .split(' ')).map(( ,1)).reduceByKey( + ).map(x-»(x. 2,x. 1)).sortByKey(false 


在 WebUI 中 查看 计 


) .map(x=>(x. 
15/04/09 21: 
15/04/09 21: 
9 MB) 
15/04/09 21: 
15/04/09 21: 
e 267.0 MB) 
15/04/09 21: 
ee: 267.2 MB) 
15/04/09 
15/04/09 
15/04/09 
15/04/09 
15/04/09 
alse) 
15/04/09 
15/04/09 
15/04/09 
15/04/09 21: 
ing parents 
15/04/09 21: 
15/04/09 21: 
MB) 
15/04/09 
15/04/09 
ee 267.0 


21: 
21: 
MB) 


15/04/09 
15/04/09 
e 266.9 MB) 


15/04/09 21:31: 


ee: 267.2 MB) 


15/04/09 21:31: 
15/04/09 21:31: 


<console>:13) 


15/04/09 21:31: 
15/04/09 21:31: 


ytes) 


15/04/09 21:31: 


ytes) 


15/04/09 21:31: 


ree: 267.2 MB) 
15/04/09 21:31 


31: 


131: 


21:31: 
21:31: 


15 


:16 


INFO 
INFO 


INFO 
INFO 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


INFO 
INFO 


INFO 
INFO 


INFO 
INFO 


INFO 


INFO 
INFO 


INFO 
INFO 


INFO 


INFO 


INFO 


@SparkWorker1:53267 


15/04/09 
15/04/09 
15/04/09 
15/04/09 
15/04/09 
15/04/09 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


算 结 


storage. 
storage. 


storage. 
storage. 


storage. 


storage. 


.2,X. 1)).saveAsTextFile("/output/sortResult") 


ensureFreeSpace(77922) called with curMem-180176, maxMem-280248975 
Block broadcast 3 stored as values in memory (estimated size 76.1 KB, free 267. 


MemoryStore: 
MemoryStore: 


ensureFreeSpace(17323) called with curMem=258098, maxMem=280248975 
Block broadcast 3 piece8 stored as bytes in memory (estimated size 16.9 KB, fre 


MemoryStore: 
MemoryStore: 


BlockManagerInfo: Added broadcast_3_piece® in memory on SparkMaster:51742 (size: 16.9 KB, fr 


BlockManagerMaster: Updated info of block broadcast_3_pieced 


mapred.FileInputFormat: Total input paths to process : 1 
spark.SparkContext: Starting job: sortByKey at «console»:13 


scheduler.DAGScheduler: Registering RDD 14 (map at «console»:13) 

scheduler.DAGScheduler: Got job 1 (sortByKey at «console»:13) with 2 output partitions (allowLocal-f 
scheduler.DAGScheduler: Final stage: Stage 2(sortByKey at «console»:13) 

scheduler.DAGScheduler: Parents of final stage: List(Stage 3) 

scheduler.DAGScheduler: Missing parents: List(Stage 3) 

scheduler.DAGScheduler: Submitting Stage 3 (MappedRDD[14] at map at «console»:13), which has no miss 
storage.MemoryStore: ensureFreeSpace(3416) called with curMem-275421, maxMem-280248975 
storage.MemoryStore: Block broadcast 4 stored as values in memory (estimated size 3.3 KB, free 267.0 
storage.MemoryStore: ensureFreeSpace(2045) called with curMem-278837, maxMem-280248975 
storage.MemoryStore: Block broadcast 4 pieced stored as bytes in memory (estimated size 2045.0 B, fr 
storage.MemoryStore: ensureFreeSpace(20162) called with curMem=348406, maxMem-280248975 
storage.MemoryStore: Block broadcast 7 piece0 stored as bytes in memory (estimated size 19.7 KB, fre 
storage.BlockManagerInfo: Added broadcast 7 pieceO0 in memory on SparkMaster:51742 (size: 19.7 KB, fr 


storage. 


BlockManagerMaster: Updated info of block broadcast 7 pieceO 


scheduler.DAGScheduler: Submitting 2 missing tasks from Stage 4 (MappedRDD[21] at saveAsTextFile at 


scheduler.TaskSchedulerImpl: Adding task set 4.0 with 2 tasks 
scheduler.TaskSetManager: Starting task 0.0 in stage 4.0 (TID 10, SparkWorkeri, PROCESS LOCAL, 948 b 


scheduler.TaskSetManager: Starting task 1.0 in stage 4.0 (TID 11, SparkWorker1, PROCESS LOCAL, 948 b 


storage. 


BlockManagerInfo: Added broadcast 7 piece80 in memory on SparkWorkeri:59903 (size: 19.7 KB, f 


spark.MapOutputTrackerMasterActor: Asked to send map output locations for shuffle 2 to sparkExecutor 


spark.MapOutputTrackerMaster: Size of output statuses for shuffle 2 is 140 bytes 
scheduler.TaskSetManager: Finished task 1.0 in stage 4.0 (TID 11) in 1292 ms on SparkWorkeri (1/2) 
scheduler.TaskSetManager: Finished task 0.0 in stage 4.0 (TID 10) in 1294 ms on SparkWorkeri (2/2) 
scheduler.TaskSchedulerImpl: Removed TaskSet 4.0, whose tasks have all completed, from pool 
scheduler.DAGScheduler: Stage 4 (saveAsTextFile at «console»:13) finished in 1.292 s 
spark.SparkContext: Job finished: saveAsTextFile at «console»:13, took 1.510337208 s 


Fra 


果 (如 图 3-3 所 示 )。 可 以 用 HDFS 的 合并 文件 命令 把 存储 到 


HDFS 的 分 片 文件 合并 成 一 个 文件 ， 然 后 在 命令 终端 查看 文件 内 容 。 
Browse Directory 


loutput/sortResult 
Permission Owner Group Size Replication Block Size Name 
-rw-F-F- root supergroup 0B 2 128 MB SUCCESS 
-IW-r-r-- root supergroup 1.08 KB 2 128 MB part-00000 
-rwW-F-F- root supergroup 3.21 KB 2 128 MB part-00001 


图 3-3 保存 在 HDFS 上 的 计算 结 
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l Spark 


collect 操作 返回 一 个 单机 数组 。 


scala» val rddi = sc.parallelize(List(("xiao",23),("li",12))) 
rddi: org.apache.spark.rdd.RDD[(String, Int)] - ParallelCollectionRDD[22] at parallelize at «console»:12 


scala» val rdd2 - sc.parallelize(List(("liu",43),("wang",24))) 
rdd2: org.apache.spark.rdd.RDD[(String, Int)] - ParallelCollectionRDD[23] at parallelize at «console»:12 


scala» rddi.union(rdd2).collect 

15/04/09 21:38:37 INFO spark.SparkContext: Starting job: collect at «console»:17 

15/04/09 21:38:37 INFO scheduler.DAGScheduler: Got job 3 (collect at <console>:17) with 4 output partitions (allowLocal=fals 
e) 

15/04/09 21:38:37 INFO scheduler.DAGScheduler: Final stage: Stage 7(collect at <console>:17) 

15/04/09 21:38:37 INFO scheduler.DAGScheduler: Parents of final stage: List() 

15/04/09 21:38:37 INFO scheduler.DAGScheduler: Missing parents: List() 

15/04/09 21:38:37 INFO scheduler.DAGScheduler: Submitting Stage 7 (UnionRDD[24] at union at <console>:17), which has no miss 
ing parents 

15/04/09 21:38:37 INFO storage.MemoryStore: ensureFreeSpace(1792) called with curMem-368568, maxMem-280248975 

15/04/09 21:38:37 INFO storage.MemoryStore: Block broadcast 8 stored as values in memory (estimated size 1792.0 B, free 266. 
9 MB) 

15/04/09 21:38:37 INFO storage.MemoryStore: ensureFreeSpace(1205) called with curMem=370360, maxMem-280248975 

15/04/09 21:38:37 INFO storage.MemoryStore: Block broadcast 8 pieceO stored as bytes in memory (estimated size 1205.0 B, fre 
e 266.9 MB) 

15/04/09 21:38:37 INFO storage.BlockManagerInfo: Added broadcast 8 piece® in memory on SparkMaster:51742 (size: 1205.0 B, fr 
ee: 267.2 MB) 

15/04/09 21:38:37 INFO storage.BlockManagerMaster: Updated info of block broadcast 8 pieced 

15/04/09 21:38:37 INFO scheduler.DAGScheduler: Submitting 4 missing tasks from Stage 7 (UnionRDD[24] at union at «console»:1 
7) 

15/04/09 21:38:37 INFO scheduler.TaskSchedulerImpl: Adding task set 7.0 with 4 tasks 

15/04/09 21:38:37 INFO scheduler.TaskSetManager: Starting task 0.0 in stage 7.0 (TID 12, SparkWorkeri, PROCESS LOCAL, 1408 b 
ytes) 

15/04/09 21:38:37 INFO scheduler.TaskSetManager: Starting task 1.0 in stage 7.0 (TID 13, SparkWorker1, PROCESS LOCAL, 1406 b 
ytes) 

15/04/09 21:38:37 INFO storage.BlockManagerInfo: Added broadcast 8 piece® in memory on SparkWorkeri:59903 (size: 1205.0 B, f 
ree: 267.2 MB) 

15/04/09 21:38:37 INFO scheduler.TaskSetManager: Starting task 2.0 in stage 7.0 (TID 14, SparkWorker1, PROCESS LOCAL, 1407 b 
ytes) 

15/04/09 21:38:37 INFO scheduler.TaskSetManager: Finished task 1.0 in stage 7.0 (TID 13) in 135 ms on SparkWorkeri (1/4) 
15/04/09 21:38:37 INFO scheduler.TaskSetManager: Finished task 0.0 in stage 7.0 (TID 12) in 137 ms on SparkWorkeri (2/4) 
15/04/09 21:38:37 INFO scheduler.TaskSetManager: Starting task 3.0 in stage 7.0 (TID 15, SparkWorkeri, PROCESS LOCAL, 1408 b 
ytes) 

15/04/09 21:38:37 INFO scheduler.TaskSetManager: Finished task 2.0 in stage 7.0 (TID 14) in 17 ms on SparkWorker1 (3/4) 
15/04/09 21:38:37 INFO scheduler.TaskSetManager: Finished task 3.0 in stage 7.0 (TID 15) in 15 ms on SparkWorker1 (4/4) 
15/04/09 21:38:37 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 7.0, whose tasks have all completed, from pool 

15/04/09 21:38:37 INFO scheduler.DAGScheduler: Stage 7 (collect at «console»:17) finished in 0.157 s 

15/04/09 21:38:37 INFO spark.SparkContext: Job finished: collect at «console»:17, took 0.166726142 s 

res2: Array[(String, Int)] = Array((xiao,23), (1i,12), (liu,43), (wang,24)) 


(2) 读 取 HDFS ER] “README. md” X fF, HÍT groupByKey 操作 ， 使 用 collect 操作 返 
回 一 个 单机 数组 。 


scala» val groupcl = sc.textFile("/data/README.md").flatMap( .split(' ')).map(( ,1)).groupByKey.collect 

15/04/01 15:46:50 INFO storage.MemoryStore: ensureFreeSpace(190782) called with curMem=252743, maxMem=280248975 
15/04/01 15:46:50 INFO storage.MemoryStore: Block broadcast 9 stored as values in memory (estimated size 186.3 KB, fr 
ee 266.8 MB) 

15/04/01 15:46:51 INFO storage.MemoryStore: ensureFreeSpace(17323) called with curMem-443525, maxMem-280248975 
15/04/01 15:46:51 INFO storage.MemoryStore: Block broadcast 9 piece80 stored as bytes in memory (estimated size 16.9 K 
B, free 266.8 MB) 

15/04/01 15:46:51 INFO storage.BlockManagerInfo: Added broadcast 9 piece0 in memory on SparkMaster:37542 (size: 16.9 
KB, free: 267.2 MB) 

15/04/01 15:46:51 INFO storage.BlockManagerMaster: Updated info of block broadcast 9 pieced 

15/04/01 15:46:51 INFO mapred.FileInputFormat: Total input paths to process : 1 

15/04/01 15:46:51 INFO spark.SparkContext: Starting job: collect at «console»:12 

15/04/01 15:46:51 INFO scheduler.DAGScheduler: Registering RDD 23 (map at <console>:12) 

15/04/01 15:46:51 INFO scheduler.DAGScheduler: Got job 4 (collect at «console»:12) with 2 output partitions (allowLoc 
al-false) 

15/04/01 15:46:51 INFO scheduler.DAGScheduler: Final stage: Stage 8(collect at «console»:12) 

15/04/01 15:46:51 INFO scheduler.DAGScheduler: Parents of final stage: List(Stage 9) 

15/04/01 15:46:51 INFO scheduler.DAGScheduler: Missing parents: List(Stage 9) 

15/04/01 15:46:51 INFO scheduler.DAGScheduler: Submitting Stage 9 (MappedRDD[23] at map at «console»:12), which has n 
o missing parents 


15/04/01 15:46:51 INFO scheduler.TaskSetManager: Finished task 0.0 in stage 8.0 (TID 22) in 175 ms on SparkWorker2 (1 
/2) 

15/04/01 15:46:51 INFO scheduler.TaskSetManager: Finished task 1.0 in stage 8.0 (TID 23) in 193 ms on SparkWorkeri (2 
/2) 

15/04/01 15:46:51 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 8.0, whose tasks have all completed, from pool 
15/04/01 15:46:51 INFO scheduler.DAGScheduler: Stage 8 (collect at «console»:12) finished in 8.200 s 

15/04/01 15:46:51 INFO spark.SparkContext: Job finished: collect at «console»:12, took 0.606895788 s 

groupcl: Array[(String, Iterable[Int])] = Array((means,CompactBuffer(1)), (under,CompactBuffer(1, 1)), (this,CompactB 
uffer(1, 1, 1, 1)), (Because,CompactBuffer(1)), (agree,CompactBuffer(1)), (Python,CompactBuffer(1, 1)), (cluster.,Com 
pactBuffer(1)), (follows.,CompactBuffer(1)), (its,CompactBuffer(1)), (YARN,,CompactBuffer(1, 1, 1)), (have,CompactBuf 
fer(1, 1)), (MRv1,,CompactBuffer(1)), (pre-built,CompactBuffer(1)), (general,CompactBuffer(1, 1)), (locally.,CompactB 
uffer(1)), (changed,CompactBuffer(1)), (locally,CompactBuffer(1, 1)), (MapReduce,CompactBuffer(1, 1)), (only,CompactB 
uffer(1)), (Configuration,CompactBuffer(1)), (requests,CompactBuffer(1)), (learning,,CompactBuffer(1)), (basic,Compac 
eke (documentation,CompactBuffer(1)), (first,CompactBuffer(1)), (CLI,CompactBuffer(1))... 

scala> 


(3) FA parallelize 方法 从 Scala 的 集合 生成 两 个 RDD， 对 RDD 进行 join 操作 ， 并 用 col- 
lect 操作 返回 一 个 单机 数组 。 


Spark RDD 与 Spark AP1 编 程 实践 


scala» val rdd5 = sc.parallelize(Array(('r',4),('f',6))) 
rdd5: org.apache.spark.rdd.RDD[(Char, Int)] = ParallelCollectionRDD[27] at parallelize at «console»:12 


scala» val rdd6 = sc.parallelize(Array(('r',9),('h',7))) 
rdd6: org.apache.spark.rdd.RDD[(Char, Int)] = ParallelCollectionRDD[28] at parallelize at <console>:12 


scala» val joincl 
15/04/09 21:44:57 
15/04/09 21:44:57 
15/04/09 21:44:57 
15/04/09 21:44:57 
15/04/09 21:44:57 
15/04/09 21:44:57 
15/04/09 21:44:57 
15/04/09 21:44:57 


= rdd5.join(rdd6).collect 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


no missing parents 


15/04/09 21:44:57 
15/04/09 21:44:57 
15/04/09 21:44:57 
15/04/09 21:44:57 
15/04/09 21:44:57 
15/04/09 21:44:57 
15/04/09 21:44:57 
sole>:12) 

15/04/09 21:44:57 
15/04/09 21:44:57 
15/04/09 21:44:57 
15/04/09 21:44:57 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


INFO 
INFO 
INFO 
INFO 


no missing parents 


15/04/09 21:44:58 
15/04/09 21:44:58 
15/04/09 21:44:58 
15/04/09 21:44:58 
15/04/09 21:44:58 
15/04/09 21:44:58 
MB) 

15/04/09 21:44:58 
53267 

15/04/09 21:44:58 
15/04/09 21:44:58 
153267 

15/04/09 21:44:58 
15/04/09 21:44:58 
15/04/09 21:44:58 
15/04/09 21:44:58 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


INFO 


INFO 
INFO 


INFO 
INFO 
INFO 
INFO 


spark.SparkContext: Starting job: collect at «console»:16 

scheduler.DAGScheduler: Registering RDD 27 (parallelize at «console»:12) 

scheduler.DAGScheduler: Registering RDD 28 (parallelize at <console>:12) 

scheduler.DAGScheduler: Got job 4 (collect at «console»:16) with 2 output partitions (allowLocal-false) 
scheduler.DAGScheduler: Final stage: Stage 8(collect at «console»:16) 

scheduler.DAGScheduler: Parents of final stage: List(Stage 9, Stage 10) 

scheduler.DAGScheduler: Missing parents: List(Stage 9, Stage 19) 

scheduler.DAGScheduler: Submitting Stage 9 (ParallelCollectionRDD[27] at parallelize at «console»:12), which has 


storage.MemoryStore: ensureFreeSpace(1488) called with curMem-169822, maxMem-280248975 

storage.MemoryStore: Block broadcast 9 stored as values in memory (estimated size 1488.0 B, free 267.1 MB) 
storage.MemoryStore: ensureFreeSpace(976) called with curMem-171310, maxMem-280248975 

storage.MemoryStore: Block broadcast 9 pieceO stored as bytes in memory (estimated size 976.0 B, free 267.1 MB) 
storage.BlockManagerInfo: Added broadcast 9 pieceO in memory on SparkMaster:51742 (size: 976.0 B, free: 267.3 MB) 
storage.BlockManagerMaster: Updated info of block broadcast 9 pieceo 

scheduler.DAGScheduler: Submitting 2 missing tasks from Stage 9 (ParallelCollectionRDD[27] at parallelize at «con 


scheduler.TaskSchedulerImpl: Adding task set 9.0 with 2 tasks 

scheduler.TaskSetManager: Starting task 0.0 in stage 9.0 (TID 16, SparkWorkeri, PROCESS LOCAL, 1271 bytes) 
scheduler.TaskSetManager: Starting task 1.0 in stage 9.0 (TID 17, SparkWorkeri1, PROCESS LOCAL, 1271 bytes) 
scheduler.DAGScheduler: Submitting Stage 10 (ParallelCollectionRDD[28] at parallelize at «console»:12), which has 


storage.BlockManagerMaster: Updated info of block broadcast 11 pieceQ 

scheduler.DAGScheduler: Submitting 2 missing tasks from Stage 8 (FlatMappedValuesRDD[31] at join at «console»:16) 
scheduler.TaskSchedulerImpl: Adding task set 8.0 with 2 tasks 

scheduler.TaskSetManager: Starting task 0.0 in stage 8.0 (TID 20, SparkWorkeri, PROCESS LOCAL, 1794 bytes) 
scheduler.TaskSetManager: Starting task 1.0 in stage 8.0 (TID 21, SparkWorkeri, PROCESS LOCAL, 1794 bytes) 
storage.BlockManagerInfo: Added broadcast 11 piece8 in memory on SparkWorker1:59903 (size: 1457.0 B, free: 267.3 


spark.MapOutputTrackerMasterActor: Asked to send map output locations for shuffle 3 to sparkExecutor@SparkWorker1 


spark.MapOutputTrackerMaster: Size of output statuses for shuffle 3 is 137 bytes 
spark.MapOutputTrackerMasterActor: Asked to send map output locations for shuffle 4 to sparkExecutor@SparkWorker1 


spark.MapOutputTrackerMaster: Size of output statuses for shuffle 4 is 137 bytes 
scheduler.TaskSetManager: Finished task 1.0 in stage 8.0 (TID 21) in 169 ms on SparkWorker1 (1/2) 
scheduler.DAGScheduler: Stage 8 (collect at «console»:16) finished in 0.177 s 

spark.SparkContext: Job finished: collect at «console»:16, took 0.356504955 s 


joincl: Array[(Char, (Int, Int))] = Array((r,(4,9))) 


(4) FH parallelize 方法 使 Scala 的 集合 生成 一 个 RDD， 对 RDD 进行 reduce 操作 (reduce 
本 里 是 一 个 action 操作 ) 。 


scala» val rdd7 -sc.parallelize(List(34,23,12,56)).reduce( - ) 


15/04/09 21:51:45 
15/04/09 21:51:45 
15/04/09 21:51:45 
15/04/09 21:51:45 
15/04/09 21:51:45 
15/04/09 21:51:45 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


has no missing parents 


15/04/09 21:51:45 
15/04/09 21:51:45 
15/04/09 21:51:45 
15/04/09 21:51:45 
B) 

15/04/09 21:51:45 
MB) 

15/04/09 21:51:45 
15/04/09 21:51:45 
«console»:12) 
15/04/09 21:51:45 
15/04/09 21:51:45 
15/04/09 21:51:45 
15/04/09 21:51:45 
2 MB) 

15/04/09 21:51:45 
15/04/09 21:51:45 
15/04/09 21:51:45 
15/04/09 21:51:45 
15/04/09 21:51:45 
rdd7: Int - -55 


INFO 
INFO 
INFO 
INFO 


INFO 


INFO 
INFO 


INFO 
INFO 
INFO 
INFO 


INFO 
INFO 
INFO 
INFO 
INFO 


spark.SparkContext: Starting job: reduce at <console>:12 

scheduler.DAGScheduler: Got job 7 (reduce at <console>:12) with 2 output partitions (allowLocal=false) 
scheduler.DAGScheduler: Final stage: Stage 13(reduce at <console>:12) 

scheduler.DAGScheduler: Parents of final stage: List() 

scheduler.DAGScheduler: Missing parents: List() 

scheduler.DAGScheduler: Submitting Stage 13 (ParallelCollectionRDD[34] at parallelize at «console»:12), which 


storage.MemoryStore: ensureFreeSpace(1184) called with curMem-182749, maxMem-280248975 

storage.MemoryStore: Block broadcast 14 stored as values in memory (estimated size 1184.0 B, free 267.1 MB) 
storage.MemoryStore: ensureFreeSpace(843) called with curMem-183933, maxMem-280248975 

storage.MemoryStore: Block broadcast 14 piece® stored as bytes in memory (estimated size 843.0 B, free 267.1 M 


storage.BlockManagerInfo: Added broadcast 14 pieceO0 in memory on SparkMaster:51742 (size: 843.0 B, free: 267.2 


storage.BlockManagerMaster: Updated info of block broadcast 14 pieceO 
scheduler.DAGScheduler: Submitting 2 missing tasks from Stage 13 (ParallelCollectionRDD[34] at parallelize at 


scheduler.TaskSchedulerImpl: Adding task set 13.0 with 2 tasks 

scheduler.TaskSetManager: Starting task 0.0 in stage 13.0 (TID 26, SparkWorkeri1, PROCESS LOCAL, 1100 bytes) 
scheduler.TaskSetManager: Starting task 1.0 in stage 13.0 (TID 27, SparkWorker1, PROCESS LOCAL, 1100 bytes) 
storage.BlockManagerInfo: Added broadcast 14 pieceO0 in memory on SparkWorkeri:59903 (size: 843.0 B, free: 267. 


scheduler.TaskSetManager: Finished task 1.0 in stage 13.0 (TID 27) in 124 ms on SparkWorkeri (1/2) 
scheduler.TaskSetManager: Finished task 0.0 in stage 13.0 (TID 26) in 126 ms on SparkWorker1 (2/2) 
scheduler.TaskSchedulerImpl: Removed TaskSet 13.0, whose tasks have all completed, from pool 
scheduler.DAGScheduler: Stage 13 (reduce at «console»:12) finished in 0.126 s 

spark.SparkContext: Job finished: reduce at <console>:12, took 0.138434677 s 


(5) 用 parallelize 方法 使 Scala 的 集合 生成 一 个 键 值 对 RDD， 对 RDD 进行 lookup 操作 
(lookup 本 里 是 一 个 action 操作 )。 


scala» sc.parallelize(List(("as",2),("er",34),("er",56),("23",32))).lookup("er") 


15/04/09 21:55:36 
15/04/09 21:55:36 


lse) 


15/04/09 21:55:36 
15/04/09 21:55:36 
15/04/09 21:55:36 
15/04/09 21:55:36 


o missing parents 


15/04/09 21:55:36 
15/04/09 21:55:36 


267.1 MB) 


INFO spark.SparkContext: Starting job: lookup at <console>:13 
INFO scheduler.DAGScheduler: Got job 8 (lookup at «console»:13) with 2 output partitions (allowLocal-fa 


INFO scheduler.DAGScheduler: Final stage: Stage 14(lookup at <console>:13) 

INFO scheduler.DAGScheduler: Parents of final stage: List() 

INFO scheduler.DAGScheduler: Missing parents: List() 

INFO scheduler.DAGScheduler: Submitting Stage 14 (MappedRDD[37] at lookup at «console»:13), which has n 


INFO storage.MemoryStore: ensureFreeSpace(1984) called with curMem-184776, maxMem-280248975 
INFO storage.MemoryStore: Block broadcast 15 stored as values in memory (estimated size 1984.0 B, free 


d 


T Spark 
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15/04/09 21:55:36 INFO storage.MemoryStore: ensureFreeSpace(1266) called with curMem-186760, maxMem-280248975 

15/04/09 21:55:36 INFO storage.MemoryStore: Block broadcast 15 piece® stored as bytes in memory (estimated size 1266.0 B, 
free 267.1 MB) 

15/04/09 21:55:36 INFO storage.BlockManagerInfo: Added broadcast 15 piece0 in memory on SparkMaster:51742 (size: 1266.0 B 
, free: 267.2 MB) 

15/04/09 21:55:36 INFO storage.BlockManagerMaster: Updated info of block broadcast 15 pieced 

15/04/09 21:55:36 INFO scheduler.DAGScheduler: Submitting 2 missing tasks from Stage 14 (MappedRDD[37] at lookup at «cons 

ole>:13) 

15/04/09 21:55:36 INFO scheduler.TaskSchedulerImpl: Adding task set 14.0 with 2 tasks 

15/04/09 21:55:36 INFO scheduler.TaskSetManager: Starting task 0.0 in stage 14.0 (TID 28, SparkWorker1, PROCESS LOCAL, 13 
18 bytes) 

15/04/09 21:55:36 INFO scheduler.TaskSetManager: Starting task 1.0 in stage 14.0 (TID 29, SparkWorker1, PROCESS LOCAL, 13 
18 bytes) 

15/04/09 21:55:36 INFO storage.BlockManagerInfo: Added broadcast 15 piece0 in memory on SparkWorker1:59903 (size: 1266.0 
B, free: 267.2 MB) 

15/04/09 21:55:36 INFO scheduler.TaskSetManager: Finished task 0.0 in stage 14.0 (TID 28) in 42 ms on SparkWorkeri (1/2) 
15/04/09 21:55:36 INFO scheduler.TaskSetManager: Finished task 1.0 in stage 14.0 (TID 29) in 43 ms on SparkWorkeri (2/2) 
15/04/09 21:55:36 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 14.0, whose tasks have all completed, from pool 
15/04/09 21:55:36 INFO scheduler.DAGScheduler: Stage 14 (lookup at «console»:13) finished in 0.048 s 

15/04/09 21:55:36 INFO spark.SparkContext: Job finished: lookup at <console>:13, took 0.054814214 s 

res3: Seq[Int] - WrappedArray(34, 56) 


(6) 可 以 用 toDeubgString 方法 调试 程序 。toDebugString 方法 是 一 个 常用 的 调试 程序 的 工 
具 方 法 ， 通 过 它 可 以 很 清晰 地 查看 到 RDD 之 间 的 相互 依赖 关系 。 有 时 候 一 个 操作 方法 产生 
的 不 止 是 一 个 RDD， 在 这 个 过 程 中 ， 可 能 系统 内 部 已 经 生成 了 其 他 的 RDD。 比 如 在 reduce- 
ByKey 操作 的 过 程 中 ， 一 共 连 续 产 生 了 MapPartitionRDD, ShuffledRDD 和 MapPartitionRDD 三 
个 RDD， 而 一 般 我 们 只 看 到 了 最 后 产生 的 MapPartitionRDD。 


scala» val reduceRDD = sc.textFile("/data/README.md").flatMap( .split(' ')).map(( ,1)).reduceByKey( ^ ) 

15/04/09 21:59:04 INFO storage.MemoryStore: ensureFreeSpace(206468) called with curMem-188026, maxMem-280248975 

15/04/09 21:59:04 INFO storage.MemoryStore: Block broadcast 16 stored as values in memory (estimated size 201.6 KB, free 2 
66.9 MB) 

15/04/09 21:59:04 INFO storage.MemoryStore: ensureFreeSpace(17323) called with curMem-394494, maxMem=280248975 

15/04/09 21:59:04 INFO storage.MemoryStore: Block broadcast 16 piece8 stored as bytes in memory (estimated size 16.9 KB, f 
ree 266.9 MB) 

15/04/09 21:59:04 INFO storage.BlockManagerInfo: Added broadcast 16 pieceO0 in memory on SparkMaster:51742 (size: 16.9 KB, 
free: 267.2 MB) 

15/04/09 21:59:04 INFO storage.BlockManagerMaster: Updated info of block broadcast 16 piece8 

15/04/09 21:59:04 INFO mapred.FileInputFormat: Total input paths to process : 1 

reduceRDD: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[42] at reduceByKey at <console>:12 


scala» reduceRDD.toDebugString 

res4: String - 

(2) ShuffledRDD[42] at reduceByKey at «console»:12 

*-(2) MappedRDD[41] at map at <console>:12 
| FlatMappedRDD[40] at flatMap at <console>:12 
| /data/README.md MappedRDD[39] at textFile at «console»:12 
| /data/README.md HadoopRDD[38] at textFile at «console»:12 


Sol) 搜狗 日 志 数 据 分 析 实 践 


本 节 所 用 的 数据 是 来 自 搜狗 实验 室 的 用 户 查 询 日 志 (SogouQ) ， 该 日 志 数 据 是 搜索 引擎 
查询 日 志 库 设计 的 为 包括 约 1 个 月 的 Sogou 搜索 引擎 部 分 网 页 查询 需求 及 用 户 点 击 情况 的 网 
页 查询 日 志 数 据 集合 。 为 进行 中 文 搜索 引擎 用 户 行为 分 析 的 研究 者 提供 基准 研究 语 料 。 

数据 下 载 地 址 为 : http:AAwww. sogou. com/labs/dl/q. html。 用 户 可 以 根据 自己 的 Spark 
机 融 配 置 的 实际 情况 选择 下 载 不 同 的 版 本 ， 这 里 我 们 使 用 的 是 迷你 版 本 的 tar gz 格式 的 文 
件 ， 其 大 小 为 211 KB， 打开 该 文件 ， 其 内 容 如 图 3-4 所 示 。 

该 文件 的 格式 是 : 访问 时 间 \t 用 户 ID\t 查询 词 \t 该 URL 在 返回 结果 中 的 排名 \t 用 户 点 
击 的 顺序 号 \t 用 户 点 击 的 URL, 

用 “hadoop fs — copyFromLocal SogouQ. mini /data” 命 令 把 文件 复制 到 HDFS 文件 系统 的 
data 目录 下 。 从 Web 控制 台 看 一 下 该 文件 (如 图 3-5 所 示 )。 

下 面 我 们 来 动手 操作 搜狗 实验 室 的 日 志文 件 : 

(1) 通过 sc ( SparkContext 的 实例 对 象 ) 的 textFile 方法 读 取 已 经 上 传 到 HDFS 上 的 


Spark RDD 与 Spark_AP1 编 程 实践 


[A SogouQ.mini x | 

bo111230000005 57375476989eea12893c0c3811607bcf Ka00zRCà 1 1 http: / /www.qiyi.com/ 

20111230000005 66c5bb7774e31d0a22278249b26bc83a + 2EEDPIEZ« 3 1 http://www. booksky.org/BookDetail.aspx?BookID=1050804&Level=1 
20111230000007 b97920521c78de70ac38e3713f524b50 +Y+YA=AE 1 1 http: //www.bblianmeng.com/ 

20111230000008 6961d0c97fe93701fc9cod861d096cd9 »* ATES-qzóNsicEé:Y 1 1 http://lib.scnu.edu.cn/ 

20111230000008 f2f5a21c764aebdeie8afcc2871e086f OUIRZOAL 2 1 http://proxyie.cn/ 

20111230000009 96994a0480e7e1edcaef67b20d8816b7 1^zóycNY 1 1 http: //movie.douban.com/review/1128960/ 

20111230000009 698956eb07815439fe5f46e9a4503997 youku 1 1 http://www. youku.com/ 

20111230000009  599cd26984f72ee68b2b6ebefccf6aed ?2»0o1.E365. ; 2üfo 1 1 http: //hf.house365.com/ 

20111230000010 f577230df7b6c532837cd16ab731f874 ib£e;EÍo0-ZóE« 1 1 http: //www.kz321.com/ 

20111230000010 285f88780dd0659f5fc8acc7cc4949f2 IQEyAe 1 1 http://www.iqshuma.com/ 

20111230000010 f4ba3f337efbicc469fcdob34feff9fb Í&GóZy»üEsGas€pAEO»ü 1 1 http://mobile.zol.com.cn/148/1487938.html 
20111230000010 3d1acc7235374d531de1ca885df5e711 Áüe? i 1 1 http: //baike.baidu.com/view/6509.htm 

20111230000010 dbce4101683913365648eba6a85b6273 14+éTA60 1 1 http: //zhidao.baidu.com/question/38626533 

20111230000011  58e7d0caec23bcb4daa7bbcc4d37f008 OA*GACpAUcEOYs 2 1 http://tv.sogou.com/vertical/2xc3t6wbuk24 jnphz1j35zy.html?p=40230600 
20111230000011 a3b83dc38b2bbc35660dffcab4ed9da8 ZyÀ »3;*DO^É 1 1 http://www. 7183.info/ 

20111230000011 b89952902d7821db37e8999776b32427 OOAZAi0»z8EE2»Zo0àx0 1 1 http: //wenwen.soso.com/z/q131927207.htm 

20111230000011 7c54c43f3a8a0af0951c26d94a57d6c8 *UqEO»IÀ AaViO*uA 1 1 http://www. baidu.com/ 

20111230000011 2d6c22c084a501cOb8f7f0a845aefd9f Liz¥E-°E 5 1 http: //www.dy241.com/ 

20111230000011 11097724dae8b9fdccóobd6fa4ce4df2 118íG;à 2 1 http://118123.net/ 

20111230000012 1d374b57fbbc81aa0cc38e6f4efb88ec qqAii.in 1 1 http://tui.qihoo.com/28302631/article 2893190.html 
20111230000012 7602938965e815b413cba0b50d2ec2b0 AOAU 1 1 http: //baike.baidu.com/view/1941330.htm 

20111230000013 22201bdc15845bfb33384efc3a283ef4 cfiüío 1 1 http: //cf.qq.com/ 

20111230000013 e0d255845fc9e66b2a25c43a70de4a9a IpEA°OEOzE=0° OBEE 3 1 http: //hanyu.iciba.com/wiki/1230433.shtml 
20111230000013 b89952902d7821db37e8999776b32427 OOAZAiÓ»z6EE?»Zo0àx0 — 2 2 http: //zhidao.baidu.com/question/224925866 
20111230000013 072fa3643c91b29bd586aff29b402161 +eASAAwaIPIRIOACAUAS 2 1 http: //download.csdn.net/detail/think1919/3935722 
20111230000014 f31f594bd1f3147298bd952ba35de84d 12306.cn 1 1 http: //www.12306.cn/ 

20111230000014 26d2e31d48f527e34c082bc0de591e0e *AEOC§DU 1 1 http: //web.4399.com/asqx/ 

20111230000015 66c5bb7774e31d0a22278249b26bc83a Zot AD; AEOD 3 1 http: //www.booksky.org/BookDetail.aspx?BookID-1067515 
20111230000016 f1b7efe9428b9074f79d3e91ecc6385e 9£;iÜE«uo0xquO0^ 3 1 http: //www.xugu.net/school/top.asp?id-71407 

20111230000016 16c3b69cc93e838f89895b49643cef1d ÍoD;NY 6 1 http: //www.94caobi.com/html/21541.html 

20111230000016 7b1764147dd77a3189108874d1cf5eb3 ÁsÁmiÉ 2 1 http: //www.4399.com/flash/776.htm 

20111230000016 112324d2e8fa2449a9ba309b18397cd4 EcfatüEVESEoRoZ«EÍZoEeeqi s€L-3mE-ÁeR€ZoA0"8YqVüi*r- ScmESeüpOAszRqEh-3.2m,ZEEsZ«EÍZoY20:; EÓBZ«EÍZoyuEzR 1 1 
view/699291 

20111230000017 e767b76990f9232e525d5014d802fd29 0020049" foETO*Opi0 1 http: //10086.cn/service/ 

20111230000017 2ebbc38bf56753b09c945de813a443c3 EEOU[ atv 2 http://tv.sogou.com/movie/wxt5hmbazdf5jwuh4xg34. html?p-40230606 
20111230000018 314b319b7f2826e34662c2a831e3af78 AÍ»AZO0iÉiÁ-qE 1 http://zhidao.baidu.com/question/7102977 

20111230000018 80b1cc3a3056b301bf297abb60fa1396 IE-AAEETATAE«G- 1 http://tv.sogou.com/series/wxt4vu5644qmhqgizpgoztóc.html?p-40230600 
20111230000018 3d1acc7235374d531dei1ca885df5e711 Aueoi 2 2 


20111230000018 
20111230000019 
20111230000019 
20111230000020 


596444b8c02b7b30c11273d5bbb88741 
11e2e89dbf484ed187e73cbeaf1e0084 
63fd6f826a5f83d795f08778468d0e14 
637b29b47fed3853e117aa7009a4b621 


Browse Directory 


pissing videos 1 
www. june9. info@16 
yunvxinjin 4 
fdf 1 1 


http: //lakery.com/8y18-girl-pissing-in-mouth?nearest 
1. http://r.baidu.com/10Ca0 
http: //www.zvod.net/zvoddianying/14028.html 


1 
1 
1 
1 
http: //zhidao.baidu.com/question/330668528 
T 
1 
1 
http://www.163pan.com/files/702090900j.html 


图 3-4 搜狗 日 志文 件 


/data 
Permission Owner Group Size Replication Block Size Name 
-IW-r—-r-— root supergroup 4.7 KB 2 128 MB README.md 
-TW-r—r-— root supergroup 211.05 KB 2 128 MB SogouQ.mini 


图 3-5 HDFS 上 存储 的 SogouQ. mini 文件 


SogouQ. mini 文件 ， 生 成 一 个 RDD (变量 名 称 为 sougou) ， 然 后 调用 sougou. count 来 看 一 下 一 
共有 多 少 条 数据 。 


scala» val sougou = sc.textFile("/data/SogouQ.mini") 

15/04/09 22:06:04 INFO storage.MemoryStore: ensureFreeSpace(206468) called with curMem-411817, maxMem-280248975 
15/04/09 22:06:04 INFO storage.MemoryStore: Block broadcast 17 stored as values in memory (estimated size 201.6 KB, fre 
e 266.7 MB) 

15/04/09 22:06:04 INFO storage.MemoryStore: ensureFreeSpace(17323) called with curMem=618285, maxMem-280248975 

15/04/09 22:06:04 INFO storage.MemoryStore: Block broadcast 17 piece8 stored as bytes in memory (estimated size 16.9 KB 
, free 266.7 MB) 

15/04/09 22:06:04 INFO storage.BlockManagerInfo: Added broadcast 17 piece0 in memory on SparkMaster:51742 (size: 16.9 K 
B, free: 267.2 MB) 

15/04/09 22:06:04 INFO storage.BlockManagerMaster: Updated info of block broadcast 17 pieceo 

sougou: org.apache.spark.rdd.RDD[String] = /data/SogouQ.mini MappedRDD[44] at textFile at <console>:12 


scala» sougou.count 

15/04/09 22:06:19 INFO mapred.FileInputFormat: Total input paths to process : 1 

15/04/09 22:06:19 INFO spark.SparkContext: Starting job: count at «console»:15 

15/04/09 22:06:19 INFO scheduler.DAGScheduler: Got job 9 (count at «console»:15) with 2 output partitions (allowLocal-f 
alse) 

15/04/09 22:06:19 INFO scheduler.DAGScheduler: Final stage: Stage 15(count at <console>:15) 

15/04/09 22:06:19 INFO scheduler.DAGScheduler: Parents of final stage: List() 

15/04/09 22:06:19 INFO scheduler.DAGScheduler: Missing parents: List() 

15/04/09 22:06:19 INFO scheduler.DAGScheduler: Submitting Stage 15 (/data/SogouQ.mini MappedRDD[44] at textFile at «con 
sole>:12), which has no missing parents 

15/04/09 22:06:19 INFO storage.MemoryStore: ensureFreeSpace(2392) called with curMem=635608, maxMem-280248975 

15/04/09 22:06:19 INFO storage.MemoryStore: Block broadcast 18 stored as values in memory (estimated size 2.3 KB, free 
266.7 MB) 

15/04/09 22:06:19 INFO storage.MemoryStore: ensureFreeSpace(1532) called with curMem=638000, maxMem-280248975 
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15/04/09 22:06:19 INFO storage.MemoryStore: Block broadcast 18 pieceO stored as bytes in memory (estimated size 1532.0 

B, free 266.7 MB) 

15/04/09 22:06:19 INFO storage.BlockManagerInfo: Added broadcast 18 pieceO in memory on SparkMaster:51742 (size: 1532.0 
B, free: 267.2 MB) 

15/04/09 22:06:19 INFO storage.BlockManagerMaster: Updated info of block broadcast 18 pieced 

15/04/09 22:06:19 INFO scheduler.DAGScheduler: Submitting 2 missing tasks from Stage 15 (/data/SogouQ.mini MappedRDD[44 
] at textFile at «console»:12) 

15/04/09 22:06:19 INFO scheduler.TaskSchedulerImpl: Adding task set 15.0 with 2 tasks 

15/04/09 22:06:19 INFO scheduler.TaskSetManager: Starting task 0.0 in stage 15.0 (TID 30, SparkWorkeri, NODE LOCAL, 119 

6 bytes) 

15/04/09 22:06:19 INFO 

6 bytes) 

15/04/09 22:06:19 INFO 

0 B, free: 267.2 MB) 


scheduler.TaskSetManager: Starting task 1.0 in stage 15.0 (TID 31, SparkWorker1, NODE LOCAL, 119 


storage.BlockManagerInfo: Added broadcast 18 pieceQ in memory on SparkWorker1:59903 (size: 1532. 


15/04/09 22:06:19 INFO storage.BlockManagerInfo: Added broadcast 17 piece0 in memory on SparkWorkeri:59903 (size: 16.9 
KB, free: 267.2 MB) 

15/04/09 22:06:19 INFO scheduler.TaskSetManager: Finished task 1.0 in stage 15.0 (TID 31) in 449 ms on SparkWorker1 (1/ 
2) 

15/04/09 22:06:19 INFO scheduler.TaskSetManager: Finished task 0.0 in stage 15.0 (TID 30) in 469 ms on SparkWorker1 (2/ 
2) 

15/04/09 22:06:19 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 15.0, whose tasks have all completed, from pool 
15/04/09 22:06:19 INFO scheduler.DAGScheduler: Stage 15 (count at «console»:15) finished in 0.458 s 

15/04/09 22:06:19 INFO spark.SparkContext: Job finished: count at «console»:15, took 0.478107804 s 


res5: Long - 2000 


通过 以 上 运行 结果 的 最 后 一 行 ， 我 们 可 以 知道 加 载 进 来 的 SogouQ. mini 文件 中 一 共有 
2000 条 数据 。 

(2) 过 滤 出 有 效 的 数据 。 首 先 调用 sougou. map(_. split(“\t”) ) 方 法 , 根据“\ t” 这 个 
符 写 对 RDD 中 的 每 行 数据 进行 切 分 生成 一 个 字符 数组 ， 然 后 会 调用 RDD 的 filter 方法 对 切 
分 后 的 数据 进行 过 滤 ， 只 保留 每 个 字符 数组 的 长 度 为 6 的 数据 ， 最 后 会 调用 RDD 的 count 方 
法 来 统计 一 下 过 滤 后 的 数据 量 。 


scala» val filterSG = sougou.map(_.split("\t")).filter(_.length == 6) 
filterSG: org.apache.spark.rdd.RDD[Array[String]] = FilteredRDD[13] at filter at «console»:14 


scala» filterSG.count 
15/04/09 1:23:44 INFO 
15/04/09 22:23:44 INFO 
15/04/09 :23:44 INFO 
-false) 
15/04/09 


mapred.FileInputFormat: Total input paths to process : 1 
spark.SparkContext: Starting job: count at «console»:17 
scheduler.DAGScheduler: Got job 2 (count at «console»:17) with 2 output partitions (allowLocal 


:23:44 INFO scheduler.DAGScheduler: Final stage: Stage 2(count at <console>:17) 


15/04/09 
15/04/09 
15/04/09 


1:23:44 
1:23:44 
1:23:44 


INFO 
INFO 
INFO 


scheduler 
scheduler 
scheduler 


.DAGScheduler: 
.DAGScheduler: 
.DAGScheduler: 


Parents of final stage: List() 
Missing parents: List() 
Submitting Stage 2 (FilteredRDD[13] at filter at «console»:14), which 


has no missing parents 
15/04/09 22:23:44 INFO 
15/04/09 22:23:44 INFO 
266.8 MB) 

15/04/09 22:23:44 INFO 
15/04/09 22:23:44 INFO 
B, free 266.8 MB) 
15/04/09 22:23:44 INFO 
0 B, free: 267.2 MB) 
15/04/09 22:23:44 INFO 
15/04/09 22:23:44 INFO 
«console»:14) 


ensureFreeSpace(2744) called with curMem-498011, maxMem-280248975 
Block broadcast 5 stored as values in memory (estimated size 2.7 KB, free 


storage.MemoryStore: 
storage.MemoryStore: 


storage.MemoryStore: 
storage.MemoryStore: 


ensureFreeSpace(1700) called with curMem=500755, maxMem-280248975 
Block broadcast 5 piece® stored as bytes in memory (estimated size 1700.0 


storage.BlockManagerInfo: Added broadcast 5 piece® in memory on SparkMaster:50467 (size: 1700. 


storage.BlockManagerMaster: Updated info of block broadcast 5 pieced 
scheduler.DAGScheduler: Submitting 2 missing tasks from Stage 2 (FilteredRDD[13] at filter at 


15/04/09 22:23:44 INFO scheduler.TaskSchedulerImpl: Adding task set 2.0 with 2 tasks 

15/04/09 22:23:44 INFO scheduler.TaskSetManager: Starting task 0.0 in stage 2.0 (TID 4, SparkWorkeri1, NODE LOCAL, 119 
6 bytes) 

15/04/09 22:23:44 INFO scheduler.TaskSetManager: Starting task 1.0 in stage 2.0 (TID 5, SparkWorker1, NODE LOCAL, 119 
6 bytes) 

15/04/09 22:23:44 INFO storage.BlockManagerInfo: Added broadcast 5 piece8 in memory on SparkWorker1:49574 (size: 1700 
.0 B, free: 267.2 MB) 


15/04/09 22:23:44 INFO storage.BlockManagerInfo: 
KB, free: 267.2 MB) 
15/04/09 22:23:44 INFO 

2) 

15/04/09 22:23:44 INFO 
2) 

15/04/09 22:23:44 INFO 
15/04/09 22:23:44 INFO 
15/04/09 22:23:44 INFO 
resi: Long - 2000 


通过 以 上 运行 结 末 ， 我 们 知道 对 加 载 进来 的 SogouQ. mini 文件 进行 过 滤 操 作 后 ， 满 足 要 
求 的 数据 还 是 2000 条 。 

(3) 获得 搜索 结 末 排名 和 点 击 结 采 排名 都 是 第 一 的 数据 。 搜 索 结 采 排 名 对 应 的 是 该 文件 
中 URL 在 返回 结 采 中 的 排名 ， 点 击 结 采 排名 指 的 是 用 户 点 击 的 顺序 号 。 经 过 上 面 第 2 步 过 
滤 有 效 数据 的 操作 ， 我 们 已 经 把 每 行 数据 切 分 成 一 个 长 度 为 6 的 字符 数组 ， 要 获得 搜索 结 
排名 和 点 击 结 采 排名 都 是 第 一 的 数据 也 就 是 RDD 中 每 个 字符 数组 中 第 4 个 元 素 〈 索 引 为 3 ) 


Added broadcast 4 piece8 in memory on SparkWorker1:49574 (size: 16.9 
scheduler.TaskSetManager: Finished task 0.0 in stage 2.0 (TID 4) in 246 ms on SparkWorker1 (1/ 
scheduler.TaskSetManager: Finished task 1.0 in stage 2.0 (TID 5) in 247 ms on SparkWorker1 (2/ 
scheduler.TaskSchedulerImpl: Removed TaskSet 2.0, whose tasks have all completed, from pool 


scheduler.DAGScheduler: Stage 2 (count at «console»:17) finished in 8.253 s 
spark.SparkContext: Job finished: count at «console»:17, took 0.268301077 s 
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和 第 5 个 元 素 〈 索 引 为 4) 的 值 都 为 1 才 满足 。 因 此 在 下 面 我 们 会 连续 调用 两 个 filter 方法 
来 对 数据 进行 过 滤 ， 然 后 调用 RDD 的 count 来 统计 满足 要 求 的 数据 量 。 


scala» val rdd3 = filterSG.filter( (3).toInt == 1).filter( (4).toInt -- 1) 
rdd3: org.apache.spark.rdd.RDD[Array[String]] = FilteredRDD[9] at filter at «console»:16 


scala» rdd3. 
15/04/09 22: 
15/04/09 22: 
15/04/09 22: 
-false) 

15/04/09 
15/04/09 
15/04/09 22: INFO 
15/04/09 22:21:17 INFO 
as no missing parents 


e 


INFO 
INFO 
INFO 


mapred.FileInputFormat: Total input paths to process : 1 
spark.SparkContext: Starting job: count at «console»:19 
scheduler.DAGScheduler: Got job 1 (count at <console>:19) with 2 output partitions (allowLocal 


scheduler.DAGScheduler: 
scheduler .DAGScheduler: 
scheduler.DAGScheduler: 
scheduler.DAGScheduler: 


22: 
22: 


INFO 
INFO 


Final stage: Stage 1(count at «console»:19) 

Parents of final stage: List() 

Missing parents: List() 

Submitting Stage 1 (FilteredRDD[9] at filter at «console»:16), which h 


15/04/09 22:21:17 INFO storage.MemoryStore: ensureFreeSpace(2968) called with curMem=269505, maxMem=280248975 
15/04/09 22:21:17 INFO storage.MemoryStore: Block broadcast 3 stored as values in memory (estimated size 2.9 KB, free 
267.0 MB) 

15/04/09 22:21:17 INFO storage.MemoryStore: ensureFreeSpace(1747) called with curMem-272473, maxMem-280248975 
15/04/09 22:21:17 INFO storage.MemoryStore: Block broadcast 3 piece0 stored as bytes in memory (estimated size 1747.0 
B, free 267.0 MB) 

15/04/09 22:21:17 INFO storage.BlockManagerInfo: Added broadcast 3 piece0 in memory on SparkMaster:50467 (size: 1747. 

0 B, free: 267.2 MB) 

15/04/09 22:21:17 INFO storage.BlockManagerMaster: Updated info of block broadcast 3 pieceo 

15/04/09 22:21:17 INFO scheduler.DAGScheduler: Submitting 2 missing tasks from Stage 1 (FilteredRDD[9] at filter at « 

console»:16) 

15/04/09 22:21:17 INFO scheduler.TaskSchedulerImpl: Adding task set 1.0 with 2 tasks 

15/04/09 22:21:17 INFO scheduler.TaskSetManager: Starting task 0.0 in stage 1.0 (TID 2, SparkWorkeri, NODE LOCAL, 119 

6 bytes) 

15/04/09 22:21:17 INFO scheduler.TaskSetManager: Starting task 1.0 in stage 1.0 (TID 3, SparkWorkeri, NODE LOCAL, 119 

6 bytes) 

15/04/09 22:21:17 INFO storage.BlockManagerInfo: Added broadcast 3 piece8 in memory on SparkWorkeri:49574 (size: 1747 
:0 B, free: 267.3 MB) 

15/04/09 22:21:17 INFO storage.BlockManagerInfo: Added broadcast 2 piece0 in memory on SparkWorker1:49574 (size: 16.9 
KB, free: 267.2 MB) 

15/04/09 22:21:17 INFO scheduler.TaskSetManager: Finished task 0.0 in stage 1.0 (TID 2) in 173 ms on SparkWorkeri (1/ 
2) 

15/04/09 22:21:17 INFO scheduler.DAGScheduler: Stage 1 (count at «console»:19) finished in 0.165 s 

15/04/09 22:21:17 INFO spark.SparkContext: Job finished: count at «console»:19, took 0.182105503 s 


res0: Long - 794 


经 过 以 上 操作 ， 我 们 发 现 ， 搜 索 结 果 排 名 和 点 击 结 末 排名 都 是 第 一 的 数据 一 共有 
794 条 。 

(4) 计算 用 户 查 询 次 数 排行 榜 (降序 ) ， 并 把 结果 存储 到 HDFS 文件 的 “/data/ sgqResult” 
目录 下 。 用 户 的 查询 次 数 指 的 是 每 个 用 户 一 共 查 询 了 多 少 单词 ， 也 就 是 指 同 样 的 用 户 ID 一 共 
查询 了 多 少 单词 。 这 里 我 们 在 上 面 第 3 步 生 成 的 rdd3 的 基础 上 来 计算 用 户 查 询 次 数 排行 榜 ， 
首先 会 调用 rdd3 的 map 方法 把 rdd3 中 的 每 个 字符 数组 中 索引 为 1 的 元 素 通 过 一 个 函数 生成 
key - value 型 的 元 组 ; 然后 调用 RDD 的 reduceByKey 方法 对 key 相同 的 元 素 进 行 求 和 操作 ; 再 
调用 map 方法 调整 每 个 元 组 中 key 和 value 的 顺序 ; 接着 调用 sortByKey 方法 对 交换 过 key 和 
value 顺序 的 元 组 按照 key 的 大 小 进行 降序 排序 ; 之 后 在 交换 每 个 元 组 的 key 和 value 的 顺序 ; 
最 后 通过 saveAsTextFile 方法 把 操作 结果 保存 到 HDFS 文件 系统 中 的 sgqResult 目录 下 。 


scala» rdd3.map(x=>(x(1),1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey(false) .map(x=>(x._2,x._1)).saveAsTextFile(" 
/data/sgqResult") 


15/04/09 22:30:21 INFO spark.SparkContext: Starting job: sortByKey at <console>:19 

15/04/09 22:30:21 INFO scheduler.DAGScheduler: Registering RDD 14 (map at <console>:19) 

15/04/09 22:30:21 INFO scheduler.DAGScheduler: Got job 3 (sortByKey at <console>:19) with 2 output partitions (allowLoc 

al=false) 

15/04/09 22:30:21 INFO scheduler.DAGScheduler: Final stage: Stage 3(sortByKey at <console>:19) 

15/04/09 22:30:21 INFO scheduler.DAGScheduler: Parents of final stage: List(Stage 4) 

15/04/09 22:30:21 INFO scheduler.DAGScheduler: Missing parents: List(Stage 4) 

15/04/09 22:30:21 INFO scheduler.DAGScheduler: Submitting Stage 4 (MappedRDD[14] at map at <console>:19), which has no 

missing parents 

15/04/09 22:30:21 INFO storage.MemoryStore: ensureFreeSpace(3808) called with curMem=502455, maxMem=280248975 

15/04/09 22:30:21 INFO storage.MemoryStore: Block broadcast_6 stored as values in memory (estimated size 3.7 KB, free 2 

66.8 MB) 

15/04/09 22:30:21 INFO storage.MemoryStore: ensureFreeSpace(2153) called with curMem=506263, maxMem=280248975 

15/04/09 22:30:21 INFO storage.MemoryStore: Block broadcast 6 piece8 stored as bytes in memory (estimated size 2.1 KB, 
free 266.8 MB) 

15/04/09 22:30:21 INFO storage.BlockManagerInfo: Added broadcast 6 piece0 in memory on SparkMaster:50467 (size: 2.1 KB, 
free: 267.2 MB) 

15/04/09 22:30:21 INFO storage.BlockManagerMaster: Updated info of block broadcast 6 pieceo 

15/04/09 22:30:21 INFO scheduler.DAGScheduler: Submitting 2 missing tasks from Stage 4 (MappedRDD[14] at map at <consol 

e»:19) 

15/04/09 22:30:21 INFO scheduler.TaskSchedulerImpl: Adding task set 4.0 with 2 tasks 

15/04/09 22:30:21 INFO scheduler.TaskSetManager: Starting task 0.0 in stage 4.0 (TID 6, SparkWorkeri, NODE LOCAL, 1185 
bytes) 

15/04/09 22:30:21 INFO scheduler.TaskSetManager: Starting task 1.0 in stage 4.0 (TID 7, SparkWorker1, NODE LOCAL, 1185 


bytes) 
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由 于 我 们 把 运行 结果 保存 到 了 HDFS 文件 系统 中 ， 所 以 在 shell 控制 台 看 不 到 保存 后 的 
文件 ， 需 要 到 Web 控制 台 查 看 结果 (如 图 3-6 所 示 )。 在 HDFS 的 data 目录 下 存储 了 名 称 为 
sgqResule 的 文件 


Browse Directory 


/data 
Permission Owner Group Size Replication Block Size Name 
-TW-I—r— root supergroup 4.7 KB 2 128 MB README.md 
-TW-I—[-- root supergroup 211.05 KB 2 128 MB SogouQ.mini 
drwxr-xr-x root supergroup 0B 0 0B graph 
drwxr-xr-x root supergroup OB 0 0B join 
-IW-r-r-- root supergroup 93 B 2 128 MB one.tsv 
drwxr-xr-x root supergroup 0B 0 0B result 
drwxr-xr-x root supergroup 0B 0 OB resultSorted 
drwxr-xr-x root supergroup 0B 0 0B rus 
drwxr-xr-x root supergroup 0B 0 0B sgqResult 


图 3-6 查询 次 数 排行 榜 计算 结果 sgqResult 
这 时 我 们 在 shell 命令 终端 通过 Hadoop 的 命令 把 sgqResult 目录 下 的 两 个 文件 的 内 容 合 
并 成 一 个 名 称 为 CombinedResult 的 文件 ， 然 后 可 以 在 本 地 查看 该 文件 。 命 令 如 下 : 


hdfs dfs — getmerge hdfs://SparkMaster:9000/data/ sgqResult. txt CombinedResult picked up _JAVA_ 
OPTIONS: - Xms512m - Xmx1024m - XX.PermSize = 1024m 


使 用 “head” 命 令 查 看 一 下 合并 后 的 本 地 文件 内 容 : 


root@SparkMaster:~/Downloads# head CombinedResult 
(f6492a1da9875f20e01ff8b5804dcc35,14) 
(d3034ac9911c30d7cf9312591ecf990e,11) 
(e7579c6b6b9c0ea40ecfa0f425fc765a,11) 
(ec0363079f36254b12a5e30bdc070125,10) 
(5c853e91940c5eade7455e4a289722d6,10) 


(439fa809ba818cee624cc8b6e883913a,9) 
(828f91e6717213a65c97b694e6279201,9) 
(2a36742c996300d664652d9092e8a554,9) 
(5ea391fd07dbb616e9857a7d95f460e0,8) 
(596444b8c02b7b30c11273d5bbb88741,8) 
root@SparkMaster :~/Downloads# i 


head 命令 本 里 只 能 显示 10 行 数据 ， 其 中 第 1 列 是 用 户 ID, 98 2 列 是 用 户 ID 对 应 的 查 
询 次 数 ， 且 查询 次 数 是 按 降 序 排列 进行 存储 和 显示 的 。 
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具 之 一 ， 尤 其 在 智能 代码 助手 、 代 码 自动 提示 、 重 构 、J2EE 支持 、Ant、JUnit、CVS 整合 、 
代码 审查 、 创 新 的 GUI 设计 等 方面 的 功能 可 以 说 是 超常 的 。 现 在 它 同 样 是 对 Scala 18 SC HF 
最 好 的 集成 开发 环境 ， 也 提供 了 像 智能 代码 助手 和 各 种 开发 工具 等 功能 。 


搭建 和 设置 IntelliJ IDEA 开发 环境 


因为 Spark 集群 在 生产 中 都 是 部 署 在 Linux 系统 中 ， 这 里 我 们 只 讲 在 Ubuntu 下 的 IntelliJ 
IDEA 搭建 和 配置 。 

(1) 安装 JDK， 在 前 面 的 草 节 我 们 已 经 安装 成 功 了 JDKE， 这 里 不 再 做 介绍 。 为 了 获得 最 
好 的 文 持 ，JDK 的 版 本 一 定 要 是 1.6 以 后 的 。 

(2) 安装 Scala, Spark 对 Scala 的 版 本 也 有 一 定 的 要 求 ， 所 以 必须 要 下 载 指定 的 Scala 安 
装 包 。 前 面 的 章节 我 们 已 经 安装 成 功 ， 这 里 不 再 做 介绍 。 

(3) 安装 Intellij IDEA。 下 载 Intellij IDEA 安装 包 ， 为 免费 的 “Community Edition 
FREE" 版 本 完全 满足 我 们 开发 的 需要 ， 所 以 建议 大 家 选择 此 种 版 本 。 下 载 好 后 解压 到 自己 
新 建 的 文件 目录 中 。 同 时 为 了 方便 使 用 IntelliJ IDEA 的 bin 命令 ， 建 议 在 “ ~/. bashre” 文 
件 里 配置 IntelliJ IDEA 的 环境 变量 。 配 置 完 后 记得 使 用 “source ~/. bashre” 命 令 使 配置 
生效 。 


JAVA HOME-/usr/lib/java/jdk1.7.8 67 

JRE HOME-S(JAVA HOME)/jre 

HADOOP HOME-/usr / /hadoop/hadoop-2.4.1 

SCALA HOME-/usr/lib/scala/scala-2.11.4 

SPARK_HOME=/usr/ /spark/spark-1.1.0-bin-hadoop2.4 

M2_HOME=/usr/ /spark/apache-maven-3.2.2/ 

CLASS PATH-.:$[JAVA HOME]/lib:S([JRE HOME)/lib 

PATH-/usr/ [git/libexec/git-core:/usr/ /ssl/bin:/usr/ f/curl/bin 


spark/git-1.8.2.3/spark/sbt: /usr/ jidea/idea-1IC-135.1230/bin:${M2_HOME}/bin:${ 
in:S{JAVA_HOME}/bin:${HADOOP_HOME}/bin:SPATH uet 
Li N idea 的 环境 变量 设置 


(4) 在 IntelliJ IDEA 中 安装 Scala 插件 。 为 了 在 IntelliJ IDEA 中 配置 Scala 插件 ， 需 要 先 
打开 IntelliJ IDEA， 在 命令 终端 直接 输入 以 下 命令 即 可 打开 。 


root@SparkMaster: /# idea.sh 


在 IntelliJ IDEA 中 选择 “Configure” 选 项 一 “Plugins” 选 项 下 的 “Browse repositories” 1 
钮 ， 在 弹出 的 界面 中 输入 “scala” 搜 索 插 件 ， 然 后 点 击 相 应 安装 按钮 进行 安装 (如 图 3-7、 
图 3-8、 图 3-9 和 图 3-10 所 示 ) ， 最 后 重启 Intellij IDEA 使 配置 生效 。 或 者 通过 选择 “File” 
菜单 一 “Settings” 选 项 ， 在 弹出 的 界面 中 搜索 “Plugins” 选 项 ， 弹 出 Plugins 界面 ， 后 面 的 
步骤 跟 上 一 种 方法 一 样 。 

(5) 配置 Spark 应 用 开发 的 环境 。 配 置 Spark 的 应 用 开发 环境 ， 主 要 指 的 是 在 建立 的 
Scala 工程 里 面 ， 把 Spark 应 用 程序 所 依赖 的 Spark 的 Jar 包 、Scala 的 Jar 包 还 有 安装 好 的 
JDK 导入 进来 。 具 体 步 又 是 在 IntelliJ IDEA 中 新 建 一 个 Scala Project (名 称 可 以 自己 定 )， 
这 里 我 们 新 建 的 工程 名 是 FirstSparkApp。 然 后 选择 “File” 选 项 一 “projeet structure” W 


e 


^9, 


! Spark 


@@eee。 


^ ' Welcome to IntelliJ IDEA 


Recent Projects Quick Start 
root 
spark Ew Create New Project 
examples 
arkdexarnples E Import Project 


untitled1 


A Ex Open Project 


ctsluntitlec 
I S Check out from Version Control 


E Docs and How-Tos > 


% 


A] 3-7 IntelliJ IDEA 的 “Configure” 选 项 


IntelliJ IDEA aa X 


e i Welcome to Intellij IDEA 


Recent Projects € Configure 


root 


NEM P Settings 


examples 


JESUM xu EŞ Plugins 
untitled1 ae 
edhe ees lesa A Import Settings 
d 


untitlec 


~/ideaP rojects/untitled 
Export Settings 


EAR Project Defaults » 
[d 3-8 IntelliJ IDEA 的 “Plugins” 选 项 


Plugins 全 日 


@ ) Show: | All plugins * | 


Sort by: name™ Android Designer 


Version: N/A 


Android Designer 


i CSS Support 

前 Cucumber for Groovy 
i Cucumber for Java 

È CVS Integration 

i Database Support 


六 Android Support v 
This plugin provides visual editing support for Android 

if Ant Support ii layout files. The following features are available: 
if Application Servers View (vi @ Android Layout Preview tool window, 
it ASP v « Ability to create user interface of Android applications. 
# pape Supper i 
if Byte Code Viewer v definition files. 
六 CFML Support v 
六 ClearCase Integration v 
i Cloud Foundry integration v 
à* CloudBees integration ivi 
i* CoffeeScript M 
前 Commander v 
if Copyright v 
if Coverage [v1 

v 

v 

v 

v 

v 

v 


è dmServer Support 


Check or uncheck a plugin to enable or disable it 


Install JetBrains plugin... Install plugin from disk... 
图 3-9 点 击 “Plugins” 选 项 后 弹出 的 界面 


项 一 “Libraries” 选 项 ， 然 后 选择 “+”， 导 入 相应 的 Spark 和 Scala AY Jar 包 (如 图 3-11 


Biz) o 


JDK 的 安装 也 是 直接 在 “Projeet Structure ”界面 下 点 击 “project” 选 项 后 ， 在 弹出 的 对 


S 


Browse Repositories 


© a) 


Sort by: name v 


CUSTOM LANGUAGES one year ago 


ag LivePlugin 5,524 Aiki 
# PLUGIN DEVELOPMENT 3 months ago 
a SBT 147,527 jrénfeiet 
E BUILD 6 rnonths ago 
a SBT ChangeListAction 5.711 itá 
′ TOOLS INTEGRATION one year ago 
Es SBT Executor 8,969 wikit 

BUILD 7 months ago 
sw Scala hhkkk 
" CUSTOM LANGUAGES e week ago 
¿ Scala Imports Organizer 6518 Aiii 
* FORMATTING 4 months ago 
E SvgViewer 13,829 #kkwe 
E GRAPHICS 9 years ago 


HTTP Proxy Settings... Manage repositories... 
[k 3-10 安装 Scala 插件 


Project Structure 


CUSTOM LANGUAGES 


BSFConsole 
th Install plugin 


20459 downloads 


Lots 
Updated 3/20/13 ver 0.8.2 
BSF and JSR-223 scripting console, also includes Ant 


console. 
Change Notes 


0.8.2 

@ Dracula-compatible colors 
0.8.1 

e Bug fixes 

0.8 

€ IDEA 12.0.4 version 
0.7.2 

@ Fixed mouse behavor 
0.7.1 

e Fixed config saving bug 
0.7 

e Bug fixes 


@ Added an option to hide exception stacktraces 

e Added netgents EEIE JSR-223 engine support. To use 
http://code.google.com/p/netgents/downloads/list, 
2.7.x distribution into {idea_profile_dir}/config/plugins/t 
among the available |SR-223 languages. Caveats: 
messages are somewhat obscured due to the way eng 


park RDD 与 Spark APIZgfz 3k 


| | 
|. Name: |scala | 


la-2.10.4/ib/akka-actors.jar 


la-2.10,4/lib/scala-actors-migration,jar 
la-2.10.4/lib/scala-actors.jar 


es -*-ma 
|— Project Settings — liscala | 
Project |f spark-assembly-1.1.0-ha|| — 2 
| Modules [to c = 
iy Mi Classes 
Facets lil /usr/ib/scala/sca 
Artifacts lil /usr/lib/scala/scala-2.1 0.4/lib/jline.jar 
|!— Platform Settings — | lil /usr/lib/scala/scal 
SDKs lil /usr/ib/scala/sca 
Global Libraries lil /usr/lib/scala/scal 


lil /usr/ib/scala/sca 
lil /usr/lib/scala/scal 
lil /usr/lib/scala/scal 
lil /usr/ib/scala/sca 


AJ 3-11 配置 Spa 


la-2.10.4/lib/scala-compiler.jar 
la-2.10.4/lib/scala-library.jar 
la-2.10.4/lib/scala-reflect.jar 
la-2.10.4/lib/scala-swing,jar 
la-2.10.4/lib/scalap.jar 


Ill /usr/lib/scala/scala-2.1 0.4/lib/typesafe-configjar 


rk 的 应 用 开发 环境 


话 框 中 的 “Project SDK” 选 项 里 设置 即 可 〈 如 图 3-12 所 示 )。 


f Spark 核心 源码 分 析 与 开发 实战 


Project Structure ox 
€ 3 General Settings For Project 'FirstSparkApp' 


Project Settings 


i Project name: 
Project x 
FirstSparkApp 


Modules 

Libraries Project SDK: 

Facets This SDK is deFault For all project modules. 

ArtiFacts A module specific SDK can be configured For each of the modules as required 
Platform Settings Es 1.7 (java version "1.7.0 67") New... | Edit | 

SDKs 

Global Libraries Project language level: 


This language level is deFault For all project modules. 
A module specific language level can be configured For each of the modules as required 


| 6.0 - @Override in interfaces M 


Project compiler output: 

This path is used to store all project compilation results. 

A directory corresponding to each module is created under this path. 

This directory contains two subdirectories: Production and Test For production code and test sources, respectively. 
A module specific compiler output path can be configured For each of the modules as required 


/root/Downloads/FirstSparkApp/out | " | 


A) 3-12 导入 JDK 


ZJE, IntelliJ IDEA 的 Spark 开发 环境 就 搭建 起 来 了 ， 下 面 的 小 节 我 们 进行 在 IntelliJ I- 
DEA 下 开发 并 部 署 Spark 应 用 程序 的 实践 操作 。 


3. 4. 2 在 IntelliJ IDEA 下 开发 并 部 署 Spark 应 用 程序 


在 这 里 ， 我 们 借用 Spark 源码 的 examples 包 中 提供 的 应 用 程序 示例 SparkPi， 这 个 示例 
就 是 根据 传人 Object SparkPi 的 参数 值 进行 计算 ， 然 后 打印 出 Pi 的 大 约 值 。 首 先 我 们 需要 在 
IntelliJ IDEA 中 建立 一 个 应 用 名 为 FirstSparkApp 的 工程 ， 创 建 过 程 可 以 通过 选择 “File” 菜 
单 栏 一 “New Project” 选 项 ， 然 后 弹出 一 个 New Project 界面 ， 如 图 3-13 所 示 。 


Ca Java Non-SBT 
Pa Java FX = SBT 

'" Android 

& IntelliJ Platform Plugin 


m Maven 
> Gradle 


S Groovy 


C3 Empty Project 


Module for developing Scala Application 


eec) ETE | Cancel | | Help | 


图 3-13 创建 Scala 工程 
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接 下 来 我 们 选择 “Scala” 选 项 ， 然 后 点 击 “Non - SBT”, pai “Next” IZE, Æ 
完成 工程 的 创建 (如 图 3-14 所 示 ) ， 需 要 注意 的 是 这 里 我 们 以 Non - SBT 的 方式 创建 工程 ， 
Maven 和 SBT 的 方式 我 们 会 在 后 面 的 小 节 讲 解 。 


JI New Project 口 其 > 


Project name;  |FirstSparkApp| 


Project location: | /root/Downloads/FirstSparkApp | = 


Project SDK: C3 1.7 (java versi 7.0 67 v | New... 
Scala settinas: 
Q Existent Library 

Compiler library: 

Standard library: 


@® Set Scala Home 


/usr/lib/scala/scala-2.11.4 


(version 2.11,4) | Download Scala... 


Compiler library: | scala-compiler Standard library: | scala-library 


C] Make global libraries 


Q Config later 


* More Settings 


| Brevious | Finish | | Cancel | | Help 


图 3-14 创建 Scala 工程 


在 图 3- 14 中 我 们 需要 设置 一 下 Project name 的 值 ， 这 里 我 们 设置 工程 名 字 是 
FirstSparkApp， 然 后 点 击 “Finish” 按 钮 ， 就 可 以 完成 工程 的 创建 。 

FirstSparkApp 工程 创建 成 功 后 ， 选 择 “File” 荣 单 栏 一 “project structure ”选项 一 
“Modules” 选 项 ， 在 Sources 选项 的 sre 文件 夹 下 再 创建 两 个 文件 来， 文件 夹 名 为 main 和 
scala， 并 且 右 击 这 两 个 文件 夹 选择 source 属性 来 对 其 进行 设置 ， 点 击 “OK” 按 钮 完成 (如 
图 3-15 所 示 )。 这 样 设置 的 原因 是 因为 这 是 Spark 项 目的 标准 格式 。 

然后 我 们 就 可 以 在 FirstSparkApp 的 src/main/scala 文件 夹 下 创建 一 个 名 称 为 SparkPi 的 
Scala Object， 最 后 我 们 把 Spark 源码 的 examples 包 中 的 SparkPi 实例 复制 过 来 ， 修 改 代码 中 
SparkConf 实例 化 时 Master 和 AppName 的 值 ， 这 里 我 们 先 设 置 Master 是 local (本 地 模式 )， 
AppName (应 用 名 称 ) 是 FirstSparkApp， 如 图 3-16 所 示 。 

下 面 我 们 通过 Local 模式 和 Spark 集群 的 模式 对 创建 的 FirstSparkApp 工程 进行 测试 。 

1. 以 Local 模式 测试 搭建 好 的 应 用 环境 

在 IntelliJ IDEA 中 测试 Local 模式 很 简单 ， 由 于 我 们 已 经 在 图 3-16 所 示 的 程序 中 实例 化 
SparkConf 时 设置 了 它 的 运行 模式 是 Local 模式 ， 因 此 我 们 直接 运行 就 可 以 了 。 


Project Structure 


¢ > acl VEZ 
Project Settings + CaFirstSparkApp 
Project @ Scala 


Modules 
Libraries 
Facets 
ArtiFacts 
Platform Settings 
SDKs 
Global Libraries 


Spark 


VP 
4A. MA 
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Paths | Dependencies | 


Language level: | «Use project language level> M (effective on project reload) 


Mark as: CiSources MiTests Resources E3Test Resources D Excluded 


M /root/Downloads/FirstSparkApp | + Add Content Root 
v [dea [root/Downloads/FirstSparkApp 
© artifacts 
2 Source Folders 
© copyright er 
E libraries src/rnain 
© scopes src/main/scala 
v Hout 
> © production 
v src 
* O main 
© scala 


x 


RX 
RX 
PX 


Cancel Apply Help 


Kk 3-15 创建 main 和 scala 文件 夹 


File Edit View Navigate Code Analyze Refactor Build Run Tools VCS Window Help 
Gi id si ) src ) Si main ) © scala ) & SparkPi.scala ) 


v CGiFirstSparkApp (~/Downloads/FirstSparkAp 


> Bidea 
v src 
v O main 
v © scala 
‘© SparkPi 
Jl FirstSparkApp.iml 
> fh External Libraries 


«1 7: Structure 


(1) 在 程序 页 面 右 击 ,选择 Run 


(如 图 3-17 所 示 ) 。 


(2) 运行 结果 如 图 3-18 所 示 ， 可 以 看 到 在 IntelliJ IDEA 控制 台 


Q 9-1 


e spaki scala x 


roughly 3. 14252” 的 结 


g/**. . n] 
Dimport scala.math.random 


import org.apache. spark. | 
VL Computes an approximation to pi */ 


cobject SparkPi 1 
9 def main(args: Array[String]) { 


val conf = new SparkConf () .setHaster("local").setAppName("FirstSparkApp") 


val spark = new SparkContext (conf) 


val slices = if (args.length > 0) args(0).toInt else 2 


val n - 100000 * slices 


: val count = spark.parallelize(1 to n, slices).map ( i => 


val x - random * 2 - 1 
val y = random * 2 - 1 
| if (x*x + ix « 1) 1 else 0 
A }-reduce(_ + _) 
| printin(*Bi . is roughly " + 4.0 * count / n) 
spark.stop() 


FirstSparkApp 工程 中 的 Object SparkPi 程序 


“FirstSparkApp”， 就 会 在 IntelliJ IDEA 的 控制 台 运 行 


已 经 显示 出 “Pi is 
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Eie Edit View Navigate Code Analyze Refactor Build Run Tools VCS Window Help 
Ca FirstSparkApp ) © src ) O main » © scala ) © SparkPi.scala ) 


|B Project - | * | %- I | @ SparkPi.scala x 
v CaFirstSparkApp (~/Downloads/FirstSparkApy 1i | 
> Elidea 2. m/**...*/ Copy Reference Ctrl+Alt+Shift+C 
v src 5 gimport scala.math. random fil Paste Ctrl+V 
3 v D main 6 I Paste from History... Ctrl+Shift+V 
E v Dscala i posset. org, apuchitspntrk.. Paste Simple Ctrl Alt«Shifts V 
B '€ SparkPi 9 /** Computes an approximation to pi */ Column Selection Mode Alt+Shift+Insert 
的 Jl FirstSparkApp.iml 10 cobject SparkPi { , Find Usages Alt+F7 
> Bh Externat Libraries 11 5 def main(args: Array[String]) 1 Analyze ^ 
12 | val conf = new SparkConf () .setMast: p") 
13 val spark = new SparkContext(conf) Refactor í 
14 | val slices = if (args.length > 0) i Folding D 
15 | val n = 100000 * slices CoT ; 
16 o val count = spark.parallelize(1 to Vis 
17 | val x = random * 2 - 1 Generate... Alt+insert 
18, | val y = random + 2 - 1 © Add to Watches 
19; | if (x*x + y*y < 1) 1 else 0 : : à 3 
20 ú }.reduce( + _) Compile 'SparkPi.scala Ctrl+Shift+F9 
21 | printin("Pi is roughly " + 4.0 * ci Run FFirstSparkApp' Ctrl+Shift+F10 
= | spark.stop() lik Debug 'FirstSparkApp' 
2 al " } f Run Scala Console Ctrl+Shift+D 
25 | Local History » 
| Compare with Clipboard 
File Encoding 
图 Create Gist... 


[d 3-17 选择 Run ‘ FirstSparkApp’ 


bt | 15/05/31 22:57:48 INFO Executor: Finished task 1.0 in stage 0.0 (TID 1). 701 bytes result sent to driver 

: 15/05/31 22:57:48 INFO TaskSetManager: Finished task 0,0 in stage 0.0 (TID 0) in 360 ms on localhost (1/2) 
E 4 i 15/05/31 22:57:48 INFO TaskSetManager: Finished task 1.0 in stage 0.0 (TID 1) in 114 ms on localhost (2/2) 
"uz i 15/05/31 22:57:48 INFO DAGScheduler: Stage 9 (reduce at SparkPi.scala:20) finished in 0.539 s 

i 15/05/31 22:57:48 INFO TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
| 15/05/31 22:57:48 INFO SparkContext: Job finished: reduce at SparkPi.scala:20, took 3.462952958 s 

;Pi is roughly 3.14252 
|e : 15/05/31 22:57:48 INFO SparkUI: Stopped Spark web UI at http://SparkMaster: 4040 

| 15/05/31 22:57:48 INFO DAGScheduler: Stopping DAGScheduler 
一 ñ : 15/05/31 22:57:49 INFO MapOutputTrackerMasterActor: MapOutputTrackerActor stopped! 


: 15/05/31 22:57:49 INFO ConnectionManager: Selector thread was interrupted! 
x : 15/05/31 22:57:49 INFO ConnectionManager: ConnectionManager stopped 
i 15/05/31 22:57:49 INFO MemoryStore: MemoryStore cleared 
x | 15/05/31 22:57:49 INFO BlockManager; BlockManager stopped| 
? i 15/05/31 22:57:49 INFO BlockManagerMaster: BlockManagerMaster stopped 
ý | 15/05/31 22:57:49 INFO RemoteActorRefProvider$RemotingTerminator: Shutting down remote daemon. 
i 15/05/31 22:57:49 INFO RemoteActorRefProvider$RemotingTerminator: Remote daemon shut down; proceeding with flushing remote transports. 
i 15/05/31 22:57:49 INFO SparkContext: Successfully stopped SparkContext 


| Process finished with exit code O 


Kk 3-18 Local 模式 运行 SparkPi 的 结 


2. 在 Spark 集群 上 运行 在 Intellij IDEA 上 开发 的 应 用 程序 

(1) 由 于 我 们 要 在 Spark 集群 的 模式 下 运行 FirstSparkApp 工程 ， Eo oo 
W, WEE SparkConf 对 象 的 setMaster( ) 方 法 的 参数 为 spark ;// SparkMaster: 7077, JERK Hii 
置 的 Master 是 笔者 自己 主机 的 主机 名 和 Master Wig Ss, "mn 3-19 所 示 。 

要 想 通 过 shell 命令 终端 在 Spark 集群 上 运行 该 工程 ， 必 须 把 程序 打 成 Jar 包 ， 以 下 的 一 
系列 步骤 可 以 完成 打包 操作 。 

(2) 选择 “File” 荣 单 栏 一 “Project Structure” 按 钮 ， 然 后 选择 “Artifact” 选 项 ， 单 击 

按钮 ， 选 择 “Jar” 选 项 一 “From Moddules with dependencies” m (如 图 3-20 所 示 ) 。 

(3) 选择 Main Class 选项 的 下 拉 沫 单 ， 在 弹出 的 对 话 框 中 选择 SparkPi， 并 单 击 “OK” 
按钮 (如 图 3-21 所 示 )。 

(4) 在 上 一 步 单 击 “OK” 按 钮 后 ， 在 Artfact 界面 我 们 通过 name 选项 重新 设置 一 下 


Wa spark 
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一 ESSO scala x | 


—À 
gimport scala.math. random 


cámport org.apache.spark. 


|  /** Computes an approximation to pi */ 
10 object SparkPi 1 

11 9 def main(args: Array[String]) { 

1a | val conf = 


13 val spark = new SparkContext (conf) 


14 | val slices = if (args.length > 0) args(0).toInt else 2 
15 i val n - 100000 * slices 

16 o val count = spark.parallelize(1 to n, slices).map 1 i => 
17 i| val x = random * 2 - 1 

18| | val y = random * 2 - 1 

19 | if (x*x + y*y < 1) 1 else 0 

20 à }-reduce(_ + ) 

21 ; printin("Pi is roughly " + 4.0 * count / n) 

22 | spark.stop() 

23 4 } 

24 at 


图 3-19 SparkPi. scala 应 用 程序 


Project Structure 


"m ES Arti ome 


new SparkConf().setMaster("spark://SparkHaster :7677") . setAppName ("FirstSparkApp") 


Project Settings 


图 First cnnninn 
十 88 Jar 


Empty 
Proj === 
Cmca — Delete Delete 88 JavaFx Application 
Libraries Q Find Usages ^ Alt«F7 88 JavaFx Preloader 
Facets Ù Bu $Æ Android Application 


From modules with dependencies... 
tOdus/FIl SLSpdi KApp/OUUdl Lil dCLS/F II stsparkApp jar x | 


B 


Platform Settings Bi +t - B + + 
SDKs I} FirstSparkApp.jar 
Global Libraries 


F3 'FirstSparkApp' compile output 


META-INF /MANIFEST.MF File not Found in 'FirstSp 


^g | Post-processing | 


Create Manifest... | | Use Existing Manifest... 


O Show content of elements [=] 


图 3-20 打包 


Jar 包 的 名 字 为 FirstSparkAppjJar， 


同时 由 于 集群 中 的 每 台 机 大 上 已 经 


ipe: | #8 Jar 


Available Elements ? 
* OyFirstSparkApp 
Wi scala (Project Library) 
Wii spark-assernbly-1.1.0-hadoop2.4.0 (Project 


Cancel | A | | Help | 


JE f Spark 和 Scala, 


所 以 在 图 3-22 的 OutputLayout 选项 中 可 以 把 Spark ras 的 和 Scala 的 Jar 包 都 


删除 ， 这 样 做 的 好 处 是 可 以 减 小 输出 的 Jar 包 的 大 小 。 
的 第 一 步 。 


然后 


百 点 击 “OK” 按 钮 ， 完 成 打包 


x n Project Structure 


es +-|@ 


!— Project Settings 一 一 | 
Project 
Modules 


Libraries 


Facets 


+— Platform Settings — 
[SDKs 
Global Libraries 


Project Structure 


€ 5 TO 


Project Settings 88 FirstSparkApp:jar 
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Wen Create Jar from Modules 


Nothing to sho 
Module: [a FirstSparkApp 


Main Class: | SparkPi 图 
Jar Files From libraries 


© extract to the target jar 
© copy to the output directory and link via manifest 


Directory For META-INF/MANIFEST.MF: 


/root/Downloads/FirstSparkApp/src 图 


O Include tests 


[Heb | 


图 3-21 选择 SparkPi 7j Main Class 


te CO 


Project FirstSparkAppJar Name: | FirstSparkAppJar | Type: E Jar M 


Modules 
Libraries 
Facets 
Platform Settings 
SDKs 
Global Libraries 


(5) 接 下 来 就 要 进行 Jar 包 的 编译 工作 了 ,在 主 荣 单 的 上 方 选 择 “Build” 沫 单 栏 一 


Output directory: | /root/Downloads/FirstSparkApp/out/artiFacEs/FirstSparkAppJar m 


O Build on make 

Output Layout Pre-processing | Post-processing | 

ta Bl 4 — [18] r4 Available Elements 3 
Ël FirstSparkAppJar.jar » 8 Artifacts 


& Extracted 'scala-actors-migration.jar/ (/usr/lib) » CaFirstSparkApp 


ĝ Extracted 'scala-actors.jar/ (/usr/lib/scala/scal 
& Extracted 'scala-cornpiler.jar/ (/usr/lib/scala/sc 
& Extracted 'scala-library.jar/ (/usr/lib/scala/scale 
Él Extracted 'scala-reflect.jar/ (/usr/lib/scala/scal 
É Extracted 'scala-swing,jar/ (/usr/lib/scala/scala 
&@ Extracted 'scalap.jar/ (/usr/lib/scala/scala-2.10 
& Extracted 'spark-asserbly-1.1.0-hadoop2.4.0.j 
& Extracted 'typesaFe-config.jar/ (/usr/lib/scala/< 
Ei 'FirstSparkApp' compile output 


O Show content of elements E] 


Cancel Apply | Help 
图 3-22 删除 依赖 的 Spark 和 Scala 的 Jar 包 


“Build Artifact” 选 项 ， 来 编译 Jar 包 (如 图 3-23 所 示 ) 。 


Spark 


File Edit View Navigate Code Analyze Refactor EXE Run Tools VCS Window Help 
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Ca FirstSparkApp ) © src ) © main ) scala ) @ Spark +! Make Project Ctrl+F9 
Bi Project | © + | #- Ir | @ SparkPi.scala x Make Module 'FirstSparkApp 
v CaFirstSparkApp (-/Dd 1 | Compile 'SparkPi.scala’ Ctri-Shift«F9 
> 疡 .idea 2 g/** Scc) d Rebuild Project 
v Osrc pamport scala Generate Ant Build... 
5 "n = cámport org.a Build ArtiFacts... 
3 té a cn | Generate Signed APK.. 
a @ SparkPi |/** Computes pun ant Target Ctrl+Shift+F10 
Y > ÉJMETA-INF cob ject Spark: + | 


I FirstSparkApp.iml e def main(args: Array[String]) 1 


dini Li val spark = new SparkContext (conf) 
val n = 100000 * slices 


val x = random * 2 - 1 

val y = random + 2 - 1 

| if (x*x + FT « 1) 1 else 0 
a }.reduce(_ + ) 


21 : printin("Pi. is roughly " + 4.0 * count / n) 
2 | spark.stop() 

24 å} 

25 


图 3-23 编译 Jar 包 第 一 步 


(6) 对 于 编译 ， 第 一 
译 ， 就 需要 选择 “Rebuild” 选 项 (如 图 3-24 所 示 ) 。 


次 编译 的 时 候选 择 “Build” 选 项 ， 


val conf = new SparkConf().setMaster("spark://SparkHaster:7077").setAppName ("FirstSparkApp") 
val slices = if (args.length > 0) args(0).toInt else 2 


g val count = spark.parallelize(1 to n, slices).map { i => 


如 果 以 后 同样 的 工程 要 做 编 


poke scala x | 


1 
2 gm/**...*/ 

5 import scala.math. random 

6 | 

7 cimport org.apache.spark. - 

8 | 

9  /** Computes an approximation to pi */ 

10 object SparkPi { 

11 9 def main(args: Array[String]) 1 

12 val conf = new SparkConf () .setMaster("spark://SparkMWaster:7077") .setAppName ("FirstSparkApp") 
B | val spark = new SparkContext (conf) 

14 . val slices = if (args.length > 0) args(0).toInt else 2 

15 o val n = 100000 * slices 

16 o0 val count = spark.parallelize(1 to n, slices).map { i => 

A i val x = random + 2 - 1 

18 | val y = random + 2 - 1 

19 | if (x*x + y*y « 1) 1 else 0 

20 à }-reduce(_ + ) z " 

21 | println("Pi is roughly " + 4.0 * count / n) 
22 | spark.stop() All ArtiFacts > 
23 A ] 

24 à] iB FirstSparkApp;jar * 


[3-24 编译 Jar 包 第 二 步 


25 | FirstSparkAppJar > 


Build 
Rebuild 


Clean 
Edit... 


(7) 编译 完成 后 ， 可 以 到 指定 目录 下 (在 打包 时 设置 的 输出 目录 下 ) 查看 编译 成 功 的 


Jar 文件 (如 图 3-25 所 示 )。 


(8) 在 Spark 集群 的 Master 结 点 ， 
交 给 Spark 集群 运行 。 


通过 使 用 交互 式 工 具 


Spark Submit 把 生成 的 Jar 包 提 
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4 各 Home Downloads FirstSparkApp out artifacts KAES ELTI AE 


FirstSparkAppJar. 


Jar ES "AES: 


[d] 3-25  FirstSparkAppJar 包 所 在 的 目录 


首先 进入 Spark 的 bin 目录 ， 然 后 在 shell 命令 终端 输入 以 下 命令 : 


./spark — submit - - master spark;//SparkMaster; 7077 - — class SparkPi — /root/Downloads/ 
FirstSparkApp/out 
/ artifacts/ FirstSparkAppJar/ FirstSparkAppJar. jar 


其 中 spark - submit 是 向 Spark 集群 提交 任务 的 工具 ; —- master spark ;//SparkMaster ; 7077 
指 的 是 Master 结 点 的 地 址 ; -- class SparkPi 指 的 是 Main 方法 所 在 的 object; /root/Downloads/ 
FirstSparkApp/out/artifacts/ FirstSpark AppJar/FirstSpark AppJar. jar 指 的 是 Jar 所 在 地 址 。 

运行 结果 如 下 面 所 示 ， 跟 前 面 我 们 通过 在 Intellij IDEA 运用 Local 模式 的 结果 一 致 ， 都 
是 输出 : Pi is roughly 3. 13544, 


15/06/01 02:02:59 INFO storage.BlockManagerMasterActor: Registering block manager SparkWorker2:49587 with 267.3 MB RAM 
15/06/01 02:02:59 INFO storage.BlockManagerMasterActor: Registering block manager SparkWorkeri:47801 with 267.3 MB RAM 
15/06/01 02:03:05 INFO network.ConnectionManager: Accepted connection from [SparkWorker2/192.168.124.137:59000] 

15/06/01 02:03:05 INFO network.SendingConnection: Initiating connection to [SparkWorker2/192.168.124.137:49587] 

15/06/01 02:03:05 INFO network.SendingConnection: Connected to [SparkWorker2/192.168.124.137:49587], 1 messages pending 
15/06/01 02:03:05 INFO storage.BlockManagerInfo: Added broadcast 0 piece0 in memory on SparkWorker2:49587 (size: 1112.0 B, free: 267.3 MB) 
15/06/01 02:03:06 INFO scheduler.TaskSetManager: Finished task 1.0 in stage 0.0 (TID 1) in 7989 ms on SparkWorker2 (1/2) 
15/06/01 02:03:06 INFO scheduler.DAGScheduler: Stage © (reduce at SparkPi.scala:20) finished in 13.195 s 

15/06/01 02:03:06 INFO scheduler.TaskSetManager: Finished task 0.0 in stage 0.0 (TID 0) in 8017 ms on SparkWorker2 (2/2) 
15/06/01 02:03:06 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
15/06/01 02:03:06 INFO spark.SparkContext: Job finished: reduce at SparkPi.scala:20, took 14.649245811 s 

Pi is roughly 3.13544 


至 此 ， 基 于 Intellij IDEA 的 Spark 开发 环境 搭建 以 及 Spark 程序 在 Local 模式 和 Spark 集 
群 模式 下 的 实践 操作 就 分 析 完 了 。 


SORS 42 FA SBT 编译 Spark 应 用 程序 


SBT 是 一 个 代码 编译 工具 ， 可 以 用 来 编译 Scala, Java 等 语言 编写 的 应 用 程序 ，SBT 在 
使 用 时 需要 得 到 JDK1. 6 以 上 的 支持 。SBT 编译 应 用 程序 时 需要 固定 的 目录 格式 ， 并 且 需 要 
联网 ，SBT 会 将 依赖 的 jar 包 下载 到 用 户 的 home/. ivy2/cache 目录 下 面 。 

下 面 我 们 使 用 SBT 编译 一 个 简单 的 Spark 应 用 程序 。 这 里 的 应 用 程序 我 们 选取 Spark 官 
方 提供 的 单词 计数 (WordCount) 的 案例 代码 ， 在 这 个 应 用 案例 中 ， 我 们 统计 一 个 文件 中 单 
词 的 数量 。 

在 编译 这 个 Spark 应 用 程序 之 前 ， 必 须 准 备 : 

(1) FÆ Spark -1.1.0 的 安装 包 和 Scala 2. 10.4 的 安装 包 ， 然 后 进行 解压 安装 ， 并 配 
置 它 们 各 目的 PATH 路 径 到 到 ~ 7. bashre 文件 中 去 。 

(2) 下 载 并 安装 SBT， 同 时 配置 SBT 的 PATH 环境 变量 ,保证 在 Shell 控制 台中 可 以 使 
用 SBT 命令。 为 了 使 用 SBT 成 功 编译 Spark ， 我 们 需要 SBT 0. 13.0 或 其 以 后 版 本 必须 首先 已 
经 安装 就 绪 ， 笔 者 这 里 使 用 的 SBT 的 版 本 是 0. 13.8， 可 以 在 Shell 控制 台 输 入 sbt sbt - ver- 
sion 命令 来 查看 已 安装 的 SBT 的 版 本 ,运行 结果 如 下 : 


root@ Spark Master:/usr/ local/ sbt/ bin# sbt sbt — version 
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[ info] Set current project to bin (in build file;/usr/local/sbt/bin/ ) 
[ info] 0. 13. 8 


完成 以 上 准备 工作 以 后 ， 我 们 开始 建立 用 SBT 进行 Spark 应 用 程序 编译 的 案例 ， 步 又 如 下 : 
(1) 构建 一 个 SBT 环境 的 项 目 ， 项 目 名 称 为 spark_wordcount， 并 创建 SBT 编译 时 需要 的 
固定 的 目录 结构 格式 ， 可 以 在 Shell 控制 台 输 入 以 下 命令 来 完成 此 步骤 。 


mkdir — p ~ /spark, wordcount/lib 

mkdir - p ~/spark_wordcount/ project 

mkdir - p ~/spark_wordcount/srce/main/scala 
mkdir — p ~ /spark wordcount/src/test/scala 


mkdir — p ~ /spark, wordcount/target 


通过 以 上 的 命令 ， 我们 在 系统 的 Home 目录 下 创建 了 一 个 spark wordeount H 3€, 在 spark 
_wordcount 目录 中 是 SBT 需要 的 一 些 目录 结构 : lib^ (该 目录 下 存储 与 编译 相关 的 jar 文件 ) 、 
project/ , src/main/scala/, src/main/test/scala, /target, 

(2) 复制 Spark 安装 包 的 lb 目录 下 的 jar 文件 spark - assembly - 1. 1.0 - ha- 
doop2. 4. 0. jar 到 —/spark wordeount/lib 目录 下 ， 需 要 在 Shell 控制 台 输入 命令 如 下 : 


cp /usr/local/spark/spark - 1. 1. 0 -bin ~ hadoop2. 4/lib/spark ~ assembly - 1. 1. 0 - hadoop2. 4. 0. ja 


r ^ /spark_wordcount/lib 


(3) 在 Shell 控制 台 的 ~ /spark_wordcount 目录 下 输入 cat build. sbt 来 新 建 一 个 build. sbt 
配置 文件 ， 在 该 文件 中 输入 以 下 的 一 些 配置 信息 ， 这 里 需要 注意 各 行 配置 内 容 之 间 需 要 有 一 
下 空 行 来 进行 分 割 。 


name : = "WordCount" 
version := "1.1" 
scalaVersion : = "2. 10. 4" 


libraryDependencies += "org. apache. spark" 96 96 "spark — core" % "1.1.0" 


resolvers += " Akka Repository" at "http ://repo. akka. io/releases/" 


配置 完成 后 ， 保 存 并 退出 该 文件 。 
(4) WordCount 程序 编写 及 编 详 ， 具 体 步 又 如 下 。 
1) 建立 WordCount. scala 源 代 但 文件 ， 假 设 需 要 包 为 spark. example, Æ Shell 控制 台 输 
入 命令 如 下 : 
mkdir - p ~/spark_wordcount/src/main/scala/spark/example 


vim -p —/spark wordcount/src/ main/scala/spark/example/W ordCount. scala 
然后 复制 以 下 的 具体 实现 代码 到 该 WordCount. scala 源 代 码 文件 中 ， 并 保存 该 文件 。 


package spark. example 


import org. apache. spark. _ 
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importSparkContext. _ 


objectWordCount | 
def main( args; Array| String] ) | 
// 命 令 行 参数 个 数 检查 C 
if (args. length = = 0) | 
System. err. printIn( " Usage: spark. example. WordCount < input > < output >" ) 
System. exit( 1) 
| 
// 使 用 hdfs 文件 系统 
valhdfsPathRoot = " hdfshost :9000" 
// 实 例 化 spark 的 上 下 文 环 境 
val spark = newSparkContext( args (0) ," WordCount" , 
System. getenv( " SPARK HOME" ) , SparkContext. jarOfClass( this. getClass ) ) 
// 读 取 输 入 文件 
valinputFile = spark. textFile( hdfsPathRoot + args(1)) 
// 执 行 WordCount 计数 读 取 inputFile 执行 方法 flatMap ,将 每 行 通过 空格 分 词 ; 
// 然 后 将 该 词 输出 该 词 和 计数 的 一 个 元 组 ,并 初始 化 计数 为 1, 然 后 执行 reduceByKey 
// 方 法 ,对 相同 的 词 计数 累加 。 


valcountResult = inputFile. flatMap (line => line. split(" ")) 


. map( word => ( word ,1 ) ) 
. reduceByKey(_ + _) 
// 输 出 WordCount 结果 到 指定 目录 
countResult. saveAsTextFile ( hdfsPathRoot + args (2) ) 


| 
2) 进入 spark wordcount 目录 ， 对 其 执行 编译 操作 。 在 Shell 控制 台 输 入 以 下 内 容 : 


cd ~ /spark_wordcount/ 


. /sbt compile 


3) 编译 过 后 ， 在 spark _wordcount 目录 下 输入 ./sbt package 命令 把 负责 单词 计数 的 
WordCount 文件 打 成 jar 包 。 

4) 在 编译 的 过 程 中 ，SBT 需要 上 网 下 载 依赖 的 工具 包 ， 编 译 完成 后 可 以 在 ~/spark_ 
wordcount/target/scala - 2. 10/ 目 录 下 找到 打包 好 的 jar 文件 。 

5) 使 用 Spark 集群 运行 已 经 编译 并 打包 好 的 jar 文件 ， 进 入 Spark 的 bin 目录 下 ， 使 用 
spark — submit 工具 来 完成 任务 的 提交 ， 在 Shell 控制 台 输 入 的 命令 如 下 : 


. /spark — submit - class wordCount target/scala — 2. 10/wordcount, 2. 10. jar 


<input > < output > 


其 中 <input > 指 的 是 需要 被 单词 计数 的 文件 的 地 址 ，< output > 指 的 是 进行 完 单 词 计数 
的 操作 后 所 产生 的 结果 要 保存 的 地 址 。 
至 此 ,我们 就 简单 介绍 了 如 何 使 用 SBT 编译 Spark 应 用 程序 ，SBT 工具 在 Spark 中 还 是 
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比较 常用 的 ， 布 望 恋 者 在 自己 的 机 带 上 实践 用 SBT 编译 Spark 应 用 程序 。 


3. 4. 4 使 用 Maven 构建 Spark 应 用 程序 


Spark 源码 除了 用 sbt/sbt assembly 编译 ， 也 可 用 Maven 进行 编译 。Maven 是 基于 项 目 对 
象 模型 (POM), ， 并 可 以 通过 一 小 段 描述 信息 来 管理 项 目的 构建 、 报 告 和 文档 的 软件 项 目 管 
理工 具 。 其 中 POM 是 Maven 对 一 个 单一 项 目的 描述 。 没 有 POM 的 话 ，Maven 是 毫 无 用 处 
的 ， 因 为 POM 是 Maven 的 核心 ， 是 POM 实现 并 驱动 了 这 种 以 模型 来 描述 的 构建 方式 。 

Maven 除了 以 程序 构建 能 力 为 特色 之 外 ， 还 提供 高 级 项 目 管理 工具 。 由 于 Maven 的 缺 省 
构建 规则 有 较 高 的 可 重用 性 ， 所 以 常常 用 两 三 行 Maven 构建 脚本 就 可 以 构建 简单 的 项 目 。 
由 于 Maven 的 面向 项 目的 方法 ， 许 多 Apache Jakarta (Jakarta 是 Apache 组 织 下 的 一 套 Java 
解决 方案 的 开源 软件 的 名 称 ， 它 包括 了 很 多 子 项 目 ) 项 目 发 文 时 使 用 Maven， 而 且 公 司 项 目 
采用 Maven 的 比例 在 持续 增长 

下 面 我 们 用 Maven 在 Intellij IDEA 中 构建 Spark 源 代码 的 阅读 环境 。 

(1) 首先 用 git 命令 ， 把 Spark 源码 从 网 上 克隆 下 来 。 命 令 如 下 : 


git clone http://github. com/ apache/ spark 


(2) W “File” KA “New Project” WM, Ajat “Maven” WW, 
“next” 按 钮 进入 下 一 个 界面 《如 图 3-26 所 示 ) 。 


e c New Project 


Ca Java Project SDK; | Fs jdk1.8 (java version "1.8.0. 20") M New.., | 


Ea Java FX 
'& Android C Create from archetype | ^dd Archetype | 
六 |ntelliJ Platform Plugin 


-om,.atlassian.maven.archetypes:bamboo-plugin-archetype 
com,.atlassian.maven.archetypes:confluence-plugin-archetype 
com,atlassian.maven.archetypes:jira-plugin-archetype 


? Gradle z . 
-om.rfe.maven.archetypes;jpa-maven-archetype 
& Groovy de.akquinet Jbosscc;jbosscc-seam-archetype 
SE scala net detabindericata-app | 
net. UPbweb: lift-archetype-basic 
C3 Empty Project net. UPbweb: lift-archetype-blank 


net.sF.maven-har maven-archetype-har 
net.sF.maven-sar maven-archetype-sar 
org.apache.carmel archetypes:camel-archetype-activemq 


org.apache.carmel.archetypes:camel-archetype-java 
org.apache.camel.archetypes:camel-archetype-scala 
org. apache.camel.archetypes:camel-archetype-spring 


> 
> 

> 

> 

" 

> 

> 

> 

> 

> 

> 

» org.apache.carnel.archetypes:camel-archetype-component 
> 

" 

» 

* org.apache camel archetypes:camel-archetype-war 

* org.apache.cocoon:cocoon-22-archetype-block 

» org.apache.cocoon:cocoon-22-archetype-block-plain 

* org.apache.cocoon:cocoon-22-archetype-webapp 

* orgapache.maven archetypes:maven-archetype-j2ee-simple 

» org.apache.maven.archetypes:rmaven-archetype-marmalade-mojc 
» 


org.apache.maven.archetypes:imaven-archetype-moio 


| Pre I | Next | Cancel Help | 
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(3) 这 里 有 两 个 选项 要 填 ，GroupID 是 项 目 组 织 唯一 的 标识 符 ， 实 际 对 应 JAVA 的 包 的 
结构 ， 是 main 目录 里 java 的 目录 结构 。ArtifactID 就 是 项 目的 唯一 的 标识 符 ， 实 际 对 应 项 目 
的 名 称 ， 就 是 项 目 根 目录 的 名 称 。 在 这 里 我 们 两 个 都 填 人 “Spark -1.2”， 然 后 点 击 “next” 
按钮 (如 图 3-27 所 示 ) 。 > 


@o New Project 
Groupld 2 (Z inherit 


Artifactld | Spark-1.2 


Version | 1.0-SNAPSHOT [V] Inherit 


[d 3-27 填写 GroupId 和 ArtifactId 


(4) 这 里 选择 从 网 上 下 载 下 来 的 源码 存放 目录 ， 点 击 “OK” 按 钮 ， 最 后 再 点 击 “ Fin- 
ish” 按 钮 (如 图 3-28 所 示 )。 


x o New Project 


Project name: Spark-1.2 
Project location: | /root/Downloads/Spark-1.2 [-] 


f Ww 25 Select project file directory 


Project File will be stored in this directory 


AWN E X QO H Hide path 


» © Documents 

v © Downloads 
» OFirstSparkApp 
» © LoveSpark 


» O untitled 

» DldeaProjects 

» Music 

» © Pictures 

pg © Public 

Drag and drop a File into the space above to quickly locate it in the tree 
indi ud 
* More Settings 


图 3-28 选择 源码 存放 目录 


' Spark 


(5) R| F Maven 会 自动 完成 项 目 构建 ， 搭 建 好 的 源码 阅读 环境 如 图 3-29 所 示 。 


File Edit View Navigate Code Analyze Refactor Build Run Tools VCS Window Help O Maven | 
Ea spark-1.2.0 ) core ) © src ) main ) © scala ) © org ) 3 apache ) © spark ) G@ SparkContext.scala ) | Import Changes Enable Au 


Project — 7| o s- I [mSpakci2x| @ SparkContext-scala * | 


» Butil 
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> @Accumulators.scala {import ... 
& Aggregator m 
& CacheManager Y ; : " r À A 
3 * Main entry point for Spark functionality. A SparkContext represents the connection to a Spark 
上 @ContextCleaner.scala | * cluster, and can be used to create RDDs, accumulators and broadcast variables on that cluster. 
> (@Dependency.scala * 
| » @ExecutorAllocationManager.scala . * Only one SparkContext may be active per JVM. You must ‘stop() the active SparkContext before 


> GrütureAction.scala : creating a new one. This limitation may eventually be removed; see SPARK-2243 for more details. 


> theme * Gparam config a Spark Config object describing the application configuration. Any settings in 


@HttpFileServer | + this config overrides the default configs as well as system properties. 
> (HttpServer.scala à */ 
(@&Interruptiblelterator class SparkContext(config: SparkConf) extends Logging { 


» @®Logging.scala 
» @MapOutputTracker.scala 
» @package.scala 

® Partition | // If true, log warnings instead of throwing exceptions when multiple SparkContexts are active 
» @Partitioner.scala private val allowMultipleContexts: Boolean = 
config. getBoolean ("spark .driver.allowHultipleContexts", false) 


// The call site where this SparkContext was constructed. 
private val creationSite: CallSite = Utils.getCallSite() 


& SecurityManager 
@ SerializableWritable " , i " a n 
| = 5 // In order to prevent multiple SparkContexts from being active at the same time, mark this 
> @SparkConf.scala // context as having started construction. 
v @SparkContext.scala & // NOTE: this must be placed at the beginning of the SparkContext constructor. 
| '& SparkContext SparkContext.markPartiallyConstructed(this, allowMultipleContexts) 
加 SparkContext A 
Q WritableConverter 5 // This is used only by YARN for now, but should be relevant to other cluster types (Mesos, 
: // etc) too. This is typically generated from InputFormatInfo.computePreferredLocations. It 
d @SparkEnv.scala & // contains a map from hostname to a list of input format splits on the host. 
> (SparkException.scala private[spark] var preferredNodeLocationData: Map[String, Set[SplitInfo]] = Map() 
@ SparkFiles " d PEN 
» @SparkHadoopWriter.scala val startTime = System. currentTimeMillis() 
@ SparkStatusTracker b st 
> @StatusAPlimpl.scala i * Create a SparkContext that loads settings from system properties (for instance, when 
@ TaskContextHelper i i * launching with ./bin/spark-submit) ] 


图 3-29 搭建 成 功 的 源码 阅读 环境 


3.4.5 Spark 工具 


在 前 面 的 章节 我 们 已 经 使 用 了 Spark 的 两 个 工具 : Spark Shell 和 Spark Submit， 这 两 个 工 
具 对 于 Spark 程序 的 调试 和 运行 发 挥 着 重要 的 作用 。 因 此 在 这 里 我 们 对 Spark 的 这 两 个 工具 
的 使 用 做 进一步 的 分 析 ， 使 我 们 可 以 在 调试 或 者 运行 程序 的 时 候 能 够 更 深入 的 使 用 这 两 个 工 
具 来 进行 Spark 程序 的 计算 。 

1. Spark 交互 式 工 具 Spark Shell 

Spark Shell 是 Spark 特意 为 用 户 提供 一 种 交互 式 命令 终端 ， 是 学 习 Spark API 的 一 种 非常 
简单 有 效 的 工具 。 通 过 Spark Shell 我 们 不 仅 可 以 进行 RDD 各 种 方法 的 操作 ， 还 可 以 结合 它 
的 Web 控制 页 面 对 任 务 的 运行 进行 监控 ,方便 于 对 程序 调试 。Spark Shell 不 仅 可 以 本 地 
(Local) 模式 运行 ， 还 可 以 向 集群 提交 任务 。 本 质 上 看 ，Spark Shell 是 对 Spark Submit 的 一 
种 封装 (或 者 说 Spark Shell 是 调用 了 Spark Submit) 。 

(1) 下 面 代码 显示 的 是 以 本 地 (Local) 模式 进入 Spark Shell 的 命令 。 由 于 在 安装 Spark 
的 时 候 ， 已 经 把 Spark 的 bin 目录 配置 在 系统 环境 变量 中 ， 所 以 现在 可 以 直接 在 其 他 目录 下 
使 用 此 命令 。 


root@SparkMaster:~# spark-shell 

Spark assembly has been built with Hive, including Datanucleus jars on classpath 
Java HotSpot(TM) Client VM warning: ignoring option MaxPermSize-128m; support wa 
s removed in 8.0 

15/04/01 09:02:57 INFO spark.SecurityManager: Changing view acls to: root, 
15/04/01 09:02:57 INFO spark.SecurityManager: Changing modify acls to: root, 
15/04/01 09:02:57 INFO spark.SecurityManager: SecurityManager: authentication di 
sabled; ui acls disabled; users with view permissions: Set(root, ); users with m 
odify permissions: Set(root, ) 

15/04/01 09:02:57 INFO spark.HttpServer: Starting HTTP Server 

15/04/01 09:02:57 INFO server.Server: jetty-8.y.z-SNAPSHOT 

15/04/01 09:02:57 INFO server.AbstractConnector: Started SocketConnector@0.0.0.0 
:46543 
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15/04/01 09:02:57 INFO util.Utils: Successfully started service 'HTTP class serv 
er' on port 46543. 
Welcome to 


-—— X uatá e m 
CLE NN. E usu. ur > 
|) y eee roe ee) oamrsion1.12;0 


Using Scala version 2.10.4 (Java HotSpot(TM) Client VM, Java 1.8.0 20) 


可 以 看 到 我 们 使 用 Spark 版 本 是 version 1. 1. 0, Scala 的 版 本 是 2.10.2, Java 的 版 本 
是 1. 8.0.20 


(2) 下 面 的 代码 显示 的 是 让 Spark Shell 运行 在 集群 之 上 。 在 其 后 面 加 入 了 参数 master 
和 它 的 参数 值 spark ://SparkMaster:7077。 


root@SparkMaster:/# spark-shell --master spark://SparkMaster:7077 

Spark assembly has been built with Hive, including Datanucleus jars on classpath 

15/04/09 21:16:17 INFO spark.SecurityManager: Changing view acls to: root, 

15/04/09 21:16:17 INFO spark.SecurityManager: Changing modify acls to: root, 

15/04/09 21:16:17 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view 
permissions: Set(root, ); users with modify permissions: Set(root, ) 

15/04/09 21:16:17 INFO spark.HttpServer: Starting HTTP Server 

15/04/09 21:16:17 INFO server.Server: jetty-8.y.z-SNAPSHOT 

15/04/09 21:16:17 INFO server.AbstractConnector: Started SocketConnector@0.0.0.0:33172 

15/04/09 21:16:17 INFO util.Utils: Successfully started service 'HTTP class server' on port 33172. 
Welcome to 


Ween] Oe ae fee he 
WY mat a 
p TEE YES xe version 1.1.0 


Using Scala version 2.10.4 (Java HotSpot(TM) Client VM, Java 1.7.0 67) 

Type in expressions to have them evaluated. 

Type :help for more information. 

15/04/09 21:16:21 INFO spark.SecurityManager: Changing view acls to: root, 

15/04/09 21:16:21 INFO spark.SecurityManager: Changing modify acls to: root, 

15/04/09 21:16:21 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view 
permissions: Set(root, ); users with modify permissions: Set(root, ) 

15/04/09 21:16:22 INFO slf4j.Slf4jLogger: Slf4jLogger started 

15/04/09 21:16:22 INFO Remoting: Starting remoting 

15/04/09 21:16:22 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriver@SparkMaster : 60233] 


(3) 可 以 在 Shell 命令 终端 输入 “spark -shell —— help" MAAF Spark Shell 的 附加 参 
数 信息 〈 如 图 3-30 所 示 ) 。 

在 图 3-30 rp, -- class 指 的 是 Spark 程序 的 Main 方法 所 在 的 object (Scala 语言 里 的 伴 
生 对 象 ) ; —— jar 指 的 是 要 问 集群 提交 的 Jar 包 以 及 该 Jar 包 的 绝对 路 径 ; -- executor - mem- 
ory 指 的 是 每 个 Executor 的 内 存 大 小 ; -- executor - cores 指 的 是 每 个 Executor 的 CPU 个 数 。 
这 些 参 数 都 可 以 在 Spark Shell 向 集群 提交 作业 的 时 候 作 为 Spark Shell 的 附加 参数 进行 设置 ， 
而 且 这 些 参 数 一 旦 在 Spark Shell 提交 作业 时 设置 它们 的 优先 级 是 大 于 系统 配置 已 经 在 
Spark 应 用 程序 里 的 设置 的 。 

2. Spark 应 用 程序 部 署 工具 Spark Submit 

Spark Submit 是 目前 常用 的 提交 Spark 应 用 给 集群 的 工具 ， 其 基本 的 格式 是 : 


spark - submit | option] <app jar | python file > [ app options | 


查看 spark - submit 的 参数 ， 可 以 在 命令 终端 使 用 spark - submit -- help 命令 ,在 其 附 
加 参数 中 可 以 指定 Driver 和 Executor 相关 配置 的 信息 。 如 表 3-2 所 示 。 

spark - submit 把 Spark 应 用 提交 给 集群 之 后 ， 无 论 是 哪 种 运行 模式 都 可 以 在 Web 控制 台 
查看 当前 作业 的 运行 状况 ， 作 业 运 行 的 WebUI 地 址 为 : http: // «driver -node > : 4040， 其 
中 driver -node 指 的 是 Spark 的 驱动 程序 (Driver) 所 在 的 结 点 的 主机 名 4040 是 Spark 运行 
的 作业 在 WebUI 上 的 端口 号 (如 图 3-31 所 示 ) 。 


Spark | 
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root@SparkMaster:/# spark-shell --help 
Usage: ./bin/spark-shell [options] 
Spark assembly has been built with Hive, including Datanucleus jars on classpath 


Options: 
--master MASTER URL 
--deploy-mode DEPLOY MODE 


--class CLASS NAME 
--name NAME 
--jars JARS 


--py-files PY FILES 
--files FILES 


--conf PROP=VALUE 
--properties-file FILE 


--driver-memory MEM 
--driver-java-options 
--driver-library-path 
--driver-class-path 


--executor-memory MEM 


--help, -h 
--verbose, -v 


spark://host:port, mesos://host:port, yarn, or local. 
Whether to launch the driver program locally ("client") or 
on one of the worker machines inside the cluster ("cluster") 
(Default: client). 

Your application's main class (for Java / Scala apps). 

A name of your application. 

Comma-separated list of local jars to include on the driver 
and executor classpaths. 

Comma-separated list of .zip, .egg, or .py files to place 
on the PYTHONPATH for Python apps. 

Comma-separated list of files to be placed in the working 
directory of each executor. 


Arbitrary Spark configuration property. 
Path to a file from which to load extra properties. If not 
specified, this will look for conf/spark-defaults.conf. 


Memory for driver (e.g. 1000M, 2G) (Default: 512M). 

Extra Java options to pass to the driver. 

Extra Library path entries to pass to the driver. 

Extra class path entries to pass to the driver. Note that 
jars added with --jars are automatically included in the 
classpath. 


Memory per executor (e.g. 1000M, 2G) (Default: 1G). 


Show this help message and exit 
Print additional debug output 


Spark standalone with cluster deploy mode only: 


--driver-cores NUM 
--supervise 


Cores for driver (Default: 1). 
If given, restarts the driver on failure. 


Spark standalone and Mesos only: 
--total-executor-cores NUM Total cores for all executors. 


YARN-only: 
--executor-cores NUM 
--queue QUEUE NAME 
--num-executors NUM 
--archives ARCHIVES 


Number of cores per executor (Default: 1). 

The YARN queue to submit to (Default: "default"). 

Number of executors to launch (Default: 2). 

Comma separated list of archives to be extracted into the 
working directory of each executor. 


图 3-30 spark - shell 的 参数 
表 3-2 spark -submit 的 参数 
ae X 


—— master MASTER. URL 


可 以 是 spark :// host : port , mesos ; // host ; port , yarn , yarn — cluster , yarn — client, local 


—- deploy - mode DEPLOY MODE 


Driver 程序 运行 的 地 方 ，client 或 者 cluster 


—— class CLASS NAME 


ERA, RB 


-- name NAME Application 4 f/f 
-- jars JARS Driver 依赖 的 第 三 方 jar 包 


—— py - files PY FILES 


用 逗号 隔 开 的 放置 在 Python 应 用 程序 PYTHONPATH 上 的 . zip, . egg, . py 文件 列表 


—— files FILES 


用 逗号 隔 开 的 要 放置 在 每 个 executor 工作 目录 的 文件 列表 


—— properties — file FILE 


设置 应 用 程序 属性 的 文件 路 径 ， 默 认 是 conf/spark - defaults. conf 


—— driver - memory MEM Driver 程序 使 用 内 存 大 小 
een ee Driver 程序 运行 时 所 使 用 的 一 些 Java 配置 选项 ， 比 如 GC 相关 信息 ， 新 生 代 大 
—— driver - java — options "D 
小 设置 等 
—— driver - library - path Driver 程序 的 库 路 径 
—- driver - class — path Driver 程序 的 类 路 径 


—— executor - memory MEM 


executor 内 存 大 小 ， 默 认 1GB 
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( 续 ) 
Se Comi EM Driver 程序 的 使 用 CPU 个 数 ， 仅 限于 Spark Alone 模式 ， 默 认 是 1 个 
mpi: 失败 后 是 否 重启 Driver， 仅 限于 Standalone 模式 G 
—— total — executor — cores NUM executor 使 用 的 总 核 数 ， 仅 限于 Standalone, Spark on Mesos 模式 
or scores NUM 每 个 executor 使 用 的 内 核 数 ， 默 认为 1， 仅 限于 Spark on Yarn 模式 
__ queue QUEUE, NAME "E dE YARN 的 队列 ， 默 认 是 default 队列 ， 仅 限于 Spark on Yam 
RT 


2 hui = Cecutors NÜM 启动 的 executor 数量 ， 默 认 是 两 个 ， 仅 限于 Spark on Yarn 模式 
逗号 分 隔 的 归档 文件 列表 ， 会 被 解压 到 每 个 Executor 的 工作 目录 中 ， 仅 限于 
Spark on Yarn 模式 


—— archives ARCHIVES 


Hellospark-Spark Stages x I/O CEN 
. sparkmaster 
JN 
Spark” Stages Storage Environment Executors 
Spark Stages 


Total Duration: 51 s 
Scheduling Mode: FIFO 
Active Stages: 1 
Completed Stages: 0 
Falled Stages: 0 


Active Stages (1) 


Stage Id Description Submitted Durat 
1 kill) reduceByKey at HelloSpark.scala:19 2014/10/03 23:19:01 26s 


Completed Stages (0) 


图 3-31 Spark 作业 运行 的 WebUI 地 址 


1， 如 何 理解 RDD 是 Spark 的 核心 抽象 ? 是 基石 ? 是 桥梁 ? 

2. RDD 的 转换 操作 (transformation) 和 行动 操作 (action) 是 Spark 最 常用 的 两 种 操作 
算 子 ， 对 于 其 中 各 个 具体 的 操作 算 子 的 含义 和 如 何 使 用 你 了 解 多 少 ? 

3. Intellij IDEA 是 我 们 开发 Spark 程序 的 首选 平台 ， 基 于 IntelliJ IDEA 如 何 搭建 开发 平 
t? 并 且 你 是 否 已 经 使 用 Intelli] IDEA 开发 并 运行 成 功 一 个 Spark 程序 ? 


Æ ”Spark 的 运行 模式 


Spark 的 运行 模式 概览 
Local 模式 

Standalone 模式 

Yarn - Cluster 模式 
Yarn - Client 模式 
Mesos 模式 


4X4 Sparki ZiT 


Spark HJ EITRR AR 


Spark 非常 重视 打造 自己 的 生态 系统 ， 它 不 仅 文 持 多 种 外 部 文件 存储 系统 ， 还 为 了 提升 
自己 在 实际 生产 中 的 运行 效率 提供 了 多 种 多 样 的 集群 运行 模式 。Spark 部 署 在 单 台 机 顺 上 
时 ， 既 可 以 用 本 地 (Local) 模式 运行 ， 也 可 以 使 用 伪 分 布 式 模式 来 运行 ; 当 以 分 布 式 集群 
部 署 的 时 候 ， 可 以 根据 自己 集群 的 实际 情况 选择 Standalone 模式 (Spark 自 带 的 模式 ) 、Yarn 
模式 (Yarn 又 分 为 Yarn - Client 模式 和 Yarn - Cluster 模式 ) 或 者 Mesos 模式 ， 在 这 方面 
Spark 的 选择 显得 非常 灵活 多 变 。 

Standalone 模式 ， 即 独立 模式 ， 通 过 它 可 以 独立 地 部 署 Spark 集群 ， 比 如 当 我 们 只 需要 
借助 Spark 进行 大 数据 的 计算 时 ， 此 模式 是 最 佳 模式 。 但 是 当 我 们 同时 需要 多 种 计算 框架 
(比如 Spark 和 MapReduce) 时 ， 就 需要 引入 外 部 的 资源 管理 系统 (Yarn 和 Mesos 模式 ) 对 
硬件 资源 的 使 用 进行 调度 了 。Spark 一 开始 就 文 持 Mesos， 这 也 使 得 Spark 运行 在 Mesos 上 会 
比 运行 在 Yam 上 更 加 灵活 ， 更 加 自然 (比如 Mesos 又 分 为 粗 粒 度 和 细 粒 度 两 种 调度 模式 ) 。 
而 Yar 上 的 Container 资源 是 不 可 以 动态 伸缩 的 ， 具体 来 说 ， 一旦 Container 局 动 之 后 ， 可 使 
用 的 资源 不 能 再 发 生变 化 ， 这 也 使 得 Yam 目前 只 文 持 粗 粒度 的 调度 模式 。 但 是 对 于 Yam iz 
行 模式 一 个 好 处 是 由 于 淘宝 网 在 大 量 的 使 用 Yam 模式 来 进行 数据 计算 ， 这 也 使 得 Yam 运行 
模式 的 发 展 很 有 前 景 。 

总 体 来 说 ，Spark 的 各 种 运行 模式 虽然 在 启动 方式 、 运 行 位 置 、 调 度 策略 上 各 有 不 同 ， 
但 它们 的 目的 基本 都 是 一 致 的 ， 就 是 在 合适 的 位 置 安 全 可 靠 地 根据 用 户 的 配置 和 Job. 的 需要 
运行 和 管理 Task。 

本 章 具 体 介绍 Spark 的 各 种 运行 模式 时 ， 我 们 都 会 通过 它们 的 实例 部 辕 和 内 部 实现 原理 
两 个 方面 来 进行 分 析 。 通 过 实例 部 署 可 以 熟悉 如 何在 生产 环境 中 快速 的 使 用 它们 ; 而 结合 
Spark 的 源 代码 对 每 种 运行 模式 的 内 部 实现 原理 的 分 析 ， 可 以 使 我 们 更 深层 次 的 了 解 Spark 
的 运行 机 制 ， 当 在 生产 中 遇 到 问题 时 ， 可 以 结合 看 内 部 实现 原理 一 步 步 地 进行 程序 调试 并 解 
决 问题 。 

在 具体 介绍 Spark 的 各 种 运行 种 模式 之 前 ， 首 先 介 绍 一 些 基 本 的 概念 术语 和 编程 模型 
(UK 4-1 所 示 ) o 


表 4-1 概念 术语 


概念 术语 * Xx 
"n" 用 户 构建 的 Spark 应 用 程序 ,包括 驱动 程序 (A Driver 功能 的 代码 ) 和 在 集群 的 多 个 工作 
il 结 点 上 运行 的 Executor 代码 
运行 Application 中 的 main( ) 本 数 并 创建 SparkContext 的 进程 ， 初 始 化 SparkContext 是 为 了 准备 
Driver Spark 应 用 程序 的 运行 环境 ， 在 Spark 中 由 SparkContext 负责 与 集群 进行 通信 ， 进 行 资源 的 申请 、 
任务 的 分 配 和 监控 等 。 当 Worker 结 点 中 的 Executor 部 分 运行 完毕 后 ，Driver 同时 负责 将 Spark- 
Context 关闭 
Raises 在 工作 结 点 中 为 Spark 应 用 所 启动 的 一 个 进程 ， 它 可 以 运行 任务 (Task) 也 可 以 在 内 存 或 磁 
盘 中 保存 数据 。 每 一 个 应 用 都 有 属于 自己 的 独立 的 一 批 Executor 


e 
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续 表 
概念 术语 4 X 
Cl 在 集群 上 获取 资源 的 扩展 服务 ， 目 前 Spark 主要 支持 三 种 类 型 : Standalone 模式 Mesos 模式 、 
usterManager Hae 
Yarn 模式 
Worker 集群 中 任何 可 以 运行 Spark 应 用 的 结 点 ， 在 Standalone 运行 模式 中 指 的 是 通过 Spark 的 conf H 
录 下 的 slave 文件 配置 的 Worker 结 点 ， 在 Spark on Yarn 运行 模式 中 指 的 是 NodeManager 结 点 
Task 一 个 可 以 发 给 Executor 执行 的 工作 单元 ， 是 运行 Spark 应 用 的 基本 单元 
Job 包含 多 个 Task 组 成 的 并 行 计 算 ， 往 往 由 Spark 的 action 触发 产生 。 一 个 Application 中 可 能 有 
多 个 Job。 在 Spark 中 通过 runJob 方法 向 Spark 集群 中 提交 Job 
每 个 Job 会 因为 RDD 之 间 的 依赖 关系 被 拆 分 成 多 个 Task 集合 ， 其 名 称 为 Stage， 也 可 以 叫 
Stage TaskSet, Stage 的 划分 是 由 DAGScheduler 来 划分 的 。Stage 有 Shuffle Map Stage 和 Result Stage 
两 种 
DAGScheduler DAGScheduler 是 面 问 Stage 的 任务 调度 器 , 负责 接收 Spark 应 用 提交 的 Job ; 根据 RDD 的 依赖 
关系 划分 Stage， 并 提交 Stage 给 TaskScheduler 
TaskSchedul TaskScheduler 是 面向 Task 的 任务 调度 器 ， 它 接受 DAGScheduler 提交 过 来 的 TaskSets， 然 后 以 
9 | 把 一 个 个 Task 提交 到 Work 结 点 运行 ， 每 个 Executor 运行 什么 Task 也 是 在 此 处 分 配 的 
Spark 的 编程 模型 (基本 计算 单元 ) , 它 提供 了 非常 丰富 的 操作 算 子 ， 主要 分 为 transformation 
RDD 算 子 和 action 算 子 。 它 表示 已 被 分 区 ， 被 序列 化 的 ， 不 可 变 的 ， 有 容错 机 制 的 ， 并 且 能 够 并 行 
操作 的 数据 集合 
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图 4-1 所 示 是 Spark 官网 提供 的 Spark 运行 时 的 基本 工作 流程 图 。 
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图 4-1 Spark 基本 工作 流程 图 


(1) 任何 spark 的 应 用 程序 都 包含 Driver 代码 和 Executor 代码 。Spark 应 用 程序 首先 在 
Driver 初始 化 SparkContext。 为 SparkCotext 是 Spark 应 用 程序 通 往 集群 的 唯一 路 径 ， 在 
SparkContext 里 面包 含 了 DAGScheduler 和 TaskScheduler 两 个 调度 器 类 。 在 创建 SparkContext 
对 象 的 同时 也 自动 创建 了 这 两 个 类 。 

(2) SparkContext 初始 化 完成 后 ， 首 先 根 据 Spark 的 相关 配置 ， 向 Cluster Master 申请 所 
需要 的 资源 ， 然 后 在 各 个 Worker 结 点 初始 化 相应 的 Executor, Executor 初始 化 完成 后 ，Driv- 
er 将 通过 对 Spark 应 用 程序 中 的 RDD 代码 进行 解析 ， 生 成 相应 的 RDD graph (RDD 图 ) ， 该 
图 描述 了 RDD 的 相关 信息 及 彼此 之 间 的 依赖 关系 。 
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(3) RDD 图 构建 完毕 后 ，Driver 将 提交 给 DAGScheduler 进行 解析 。DAGScheduler TE 
解析 RDD 图 的 过 程 中 ， 当 遇 到 Action 算 子 后 将 进行 逆向 解析 ， 根 据 RDD 之 间 的 依赖 关系 
以 及 是 否 存在 shuffle 等 ， 将 RDD 图 解析 成 一 系列 具有 先后 依赖 关系 的 Stages. Stage 以 
shuffle 进行 划分 ， 即 如 果 两 个 RDD 之 间 存 在 宽 依赖 的 关系 ，DAGScheduler 将 会 在 这 RDD (S) 
之 间 拆 分 为 两 个 Stage 进行 执行 ， 且 只 有 在 前 一 个 Stage (3 Stage) 执行 完毕 后 ， 才 执行 
后 一 个 Stage。 

(4) DAGScheduler 将 划分 的 一 系列 的 Stage (TaskSet) ， 按 照 Stage 的 先后 顺序 依次 提交 
给 底层 的 调度 硕 TaskScheduler 去 执行 。 

(5) TaskScheduler 接收 到 DAGScheduler 的 Stage 任务 后 ， 将 会 在 集群 环境 中 构建 一 个 
TaskSetManager 实例 来 管理 Stage (TaskSet) 的 生命 周期 。 

(6) TaskSetManager 将 会 把 相关 的 计算 代码 、 数 据 资 源 文 件 等 发 送 到 相应 的 Executor 
上 ， 并 在 相应 的 Executor 上 启动 线程 池 执 行 。TaskSetManager 在 执行 过 程 中 ， 使 用 了 一 些 优 
化 的 算法 ， 用 于 提高 执行 的 效率 ， 壁 如 根据 数据 本 地 性 决定 每 个 Task 最 佳 位 置 、 推 测 执行 
MERI] Straggle 任务 需要 放 到 别 的 结 点 上 重 试 、 出 现 shuffle 输出 数据 丢失 时 要 报告 fetch failed 
错误 等 机 制 。 

(7) 在 Task 执行 的 过 程 中 ， 可 能 有 部 分 应 用 程序 涉及 到 LAO 的 输入 输出 ， 在 每 个 Exec- 
utor 由 相应 的 BlockManager 进行 管理 ， 相 关 BlockManager 的 信息 将 会 与 Driver 中 的 Block 
tracker 进行 交互 和 同步 。 

(8) 在 TaskThreads 执行 的 过 程 中 ， 如 果 存 在 运行 错误 、 或 其 他 影响 的 问题 导致 失败 ， 
TaskSetManager 将 会 默认 尝试 3 次 ， 学 试 均 失败 后 将 上 报 TaskScheduler, TaskScheduler 如 果 
解决 不 了 ,再 上 报 DAGScheduler, DAGScheduler 将 根据 各 个 Worker 结 点 的 运行 情况 重新 提 
交 到 别 的 Executor 中 执行 。 

(9) TaskThreads 执行 完毕 后 ， 将 把 执行 的 结果 反馈 给 TaskSetManager, TaskSetManager 
反馈 给 TaskScheduler, TaskScheduler 再 上 报 DAGScheduler, DAGScheduler 将 根据 是 否 还 存在 
待 执行 的 Stage， 将 继续 循环 迭代 提交 给 TaskScheduler 去 执行 。 

(10) 待 所 有 的 Stage 都 执行 完毕 后 ， 将 会 最 终 达 到 应 用 程序 的 目标 ， 或 者 输出 到 文件 、 
或 者 在 屏幕 显示 等 ，Driver 的 本 次 运行 过 程 结 束 ， 等 竺 用户 的 其 他 指令 或 者 关闭 。 

(11) 在 用 户 显 式 关 闭 SparkContext 后 ， 整 个 运行 过 程 结束 ， 相 关 的 资源 被 释放 或 回收 。 

从 以 上 工作 流程 上 可 以 看 出 ， 所 有 的 Spark 程序 都 离 不 开 SparkContext 和 Executor 两 部 
分 ， 每 个 Spark Application 都 有 自己 的 Executor 进程 ， 此 进程 的 生命 周期 和 整个 Application 
的 生命 周期 相同 ， 此 进程 内 部 维持 着 多 个 线程 来 并 行 地 执行 分 配给 它 的 Task。 这 种 运行 形 
式 有 利于 不 同 Application 之 间 的 资源 调度 隔离 ， 但 也 意味 着 不 同 的 Application 之 间 难 以 做 到 
相互 通信 和 信息 交换 。 同 时 需要 注意 由 于 Driver 负责 所 有 的 任务 调度 ， 所 以 他 应 该 尽 可 能 地 
Spit Worker 结 点 ， 如 果 能 在 一 个 网 络 环境 中 那 就 更 好 了 。 
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在 Spark 1. 0 之 后 ，Spark 应 用 程序 的 提交 方式 有 了 很 大 的 变化 ， 各 种 运行 模式 试图 通过 
统一 的 脚本 来 提交 应 用 程序 ， 目 前 最 常用 的 就 是 spark - submit 工具 ， 其 基本 的 提交 格式 为 : 


' Spark 
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./bin/spark - submit [options] <app jar | python file > [app options | 


options 参数 的 选择 和 运行 模式 相关 ， 不 同 的 运行 模式 会 有 自己 特有 的 options 选项 。 如 
果 想 了 解 options 选项 的 具体 细节 ， 可 与 在 命令 终端 输入 spark - submit -- help 命令 查看 ， 
如 下 : 


root@SparkMaster:/# spark-submit --help 
Spark assembly has been built with Hive, including Datanucleus jars on classpath 
Usage: spark-submit [options] «app jar | python file» [app options] 
Options: 
--master MASTER URL spark://host:port, mesos://host:port, yarn, or local. 
--deploy-mode DEPLOY MODE Whether to launch the driver program locally ("client") or 
on one of the worker machines inside the cluster ("cluster") 
(Default: client). 


--class CLASS NAME Your application's main class (for Java / Scala apps). 

--name NAME A name of your application. 

--jars JARS Comma-separated list of local jars to include on the driver 
and executor classpaths. 

--py-files PY FILES Comma-separated list of .zip, .egg, or .py files to place 
on the PYTHONPATH for Python apps. 

--files FILES Comma-separated list of files to be placed in the working 
directory of each executor. 

--conf PROP=VALUE Arbitrary Spark configuration property. 

--properties-file FILE Path to a file from which to load extra properties. If not 
specified, this will look for conf/spark-defaults.conf. 

--driver-memory MEM Memory for driver (e.g. 1000M, 2G) (Default: 512M). 

--driver-java-options Extra Java options to pass to the driver. 

--driver-library-path Extra library path entries to pass to the driver. 

--driver-class-path Extra class path entries to pass to the driver. Note that 
jars added with --jars are automatically included in the 
classpath. 

--executor-memory MEM Memory per executor (e.g. 1000M, 2G) (Default: 1G). 

--help, -h Show this help message and exit 

--verbose, -v Print additional debug output 


Spark standalone with cluster deploy mode only: 
--driver-cores NUM Cores for driver (Default: 1). 
--supervise If given, restarts the driver on failure. 


Spark standalone and Mesos only: 
--total-executor-cores NUM Total cores for all executors. 


YARN- only: 


--executor-cores NUM Number of cores per executor (Default: 1). 

--queue QUEUE NAME The YARN queue to submit to (Default: "default"). 
--num-executors NUM Number of executors to launch (Default: 2). 

--archives ARCHIVES Comma separated list of archives to be extracted into the 


working directory of each executor. 


对 于 提交 的 任务 ， 无论 是 哪 种 运行 模式 提交 的 ， 在 运行 Spark 应 用 程序 的 时 候 ， 都 可 以 
通过 WebUI 控制 台 页 面 来 看 具体 的 运行 细节 。 只 要 输入 地 址 : http:// < driver -node > :4040 
就 可 以 查看 当前 的 运行 状态 。 但 是 该 WebUI 随 着 应 用 程序 的 完成 而 关闭 端口 ， 也 就 是 说 ， 
Spark 应 用 程序 运行 完 后 ， 将 无 法 查看 应 用 程序 的 历史 记录 。Spark History Server 就 是 为 了 应 
对 这 种 情况 而 产生 的 ， 通 过 配置 ，Spark 应 用 程序 在 运行 完 应 用 程序 之 后 ， 将 应 用 程序 的 运 
行 信息 写 入 指定 目录 ， 而 Spark History Server 可 以 将 这 些 运 行 信息 装载 并 以 web 的 方式 供用 
户 浏 览 。 要 使 用 History Server， 对 于 提交 应 用 程序 的 客户 端 需 要 配置 以 下 参数 (在 $SPARK 
 HOME/conf 下 的 spark - defaults. conf 文件 中 配置 ) : 

(1) spark. eventLog. enabled。 是 否 记 录 Spark 事件 ， 用 于 应 用 程序 在 完成 后 重 构 WebUI。 
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(2) spark. eventLog. dir。 如 果 spark. eventLog. enabled 为 true， 该 属性 为 记录 spark 事件 
的 根 目 录 。 在 此 根 目 录 中 ，Spark 为 每 个 应 用 程序 创建 分 目录 ， 并 将 应 用 程序 的 事件 记录 到 
在 此 目录 中 。 用 户 可 以 将 此 属性 设置 为 HDFS 目录 ， 以 便 History Server e E 

(3) spark. yarn. historyServer. address, Spark History Server 的 地 址 (不 要 加 http://) 。 
个 地 址 会 在 Spark 应 用 程序 完成 后 提交 给 YARN RM， 然 后 RM 将 信息 从 RM UI 4 s 


Server UI 上 。 
而 对 于 History Server 的 服务 端 ， 可 以 配置 以 下 环境 变量 
SPARK_DAEMON_MEMORY 分 配给 history server 的 内 存 大 小 ,默认 512 MB, 
SPARK_DAEMON_JAVA_OPTS history server 的 JVM 选择 ,默认 为 空 
SPARK_PUBLIC_DNS history server 的 公 网 地 址 ,如果 不 设置 ,可 以 用 内 网 地 址 来 访 
问 。 默 认为 空 。 
SPARK_HISTORY_OPTS history server 的 属性 设置 ,属性 如 表 4-2 所 示 ,默认 为 空 。 


History Server 的 属性 列表 如 表 4-2 所 示 。 
表 4-2 History Server 的 属性 列表 


属性 名 称 默认 值 含义 


以 秒 为 单位 ， 多 长 时 间 history server 显示 的 信息 进行 更 新 。 每 次 更 新 都 
会 检查 持久 层 事件 日 志 的 任何 变化 


在 history server. 上 显示 的 最 大 应 用 程序 数量 ， 如 果 超 过 这 个 值 ， 旧 的 应 
用 程序 信息 将 被 删除 


spark. history. ui. port 18080 History Server 的 默认 访问 端口 


spark. history. updateInterval 10 


spark. history. retainedA pplications 250 


是 否 使 用 kerberos 方式 登录 访问 History Server， 对 于 持久 层 位 于 安全 集 


spark. history, kerberos. enabled | fale | 群 的 HDFS 上 是 有 用 的 。 如 果 设置 为 tue， 就 要 配置 下 面 的 两 个 属性 


Ht 


用 于 History Server 的 kerberos 主体 名 称 
用 于 History Server 的 kerberos keytab 文件 位 置 


授权 用 户 查 看 应 用 程序 信息 的 时 候 是 否 检查 acl。 如 果 启 用 ， 无 论 应 用 程 
序 的 spark. ui. acls. enable 怎 么 设置 ， 都 要 进行 授权 检查 只 有 应 用 程序 所 


spark. history. kerberos. principal 


Ht 


spark. history. kerberos. keytab 


spark. history. ui. acls. enable false 有 者 和 spark. ui. view. acls 指定 的 用 户 可 以 查看 应 用 程序 信 A: 如 果 禁 用 ， 
不 做 任何 检查 
spark. eventLog. enabled false 是 否 记 录 Spark 事件 
. 保存 日 志 相关 信息 的 路 径 ， 可 以 是 hdfs:/ 开 头 的 HDFS 路 径 ， 都 需要 提 
spark. evnetLog. dir 前 创建 
spark. yarn. historyServer. address Server 端的 URL : ip: port 或 者 host:port 


| Section | 
Local 模式 


Local 模式 实例 部 署 及 运行 演示 


Local 模式 ， 就 是 在 本 地 运行 ， 如 有 果 在 命令 语句 中 不 加 任何 配置 ，Spark 默认 设置 为 
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Local 模式 。Local 模式 最 大 的 用 处 就 是 可 以 很 方便 地 在 单机 上 调试 我 们 写 的 Spark 应 用 程 
序 。 由 于 Local 模式 的 实例 部 车 很 简单 ， 这 里 我 们 还 是 使 用 在 第 2 BE 2. 3. 1 节 进 行 过 演示 的 
Spark 源码 中 的 示例 代码 LocalPi 为 例 ， 演 示 Spark 如 何在 本 地 运行 。 

bus Spark 1. 2 中 的 org. apache. spark. examples 包 下 给 出 的 LocalPi 案例 代码 ， 最 终 的 
运行 结 有 果 是 要 求 出 Pi 的 大 约 值 。 

(1) 本 地 运行 。 对 于 Spark 上 自己 提供 的 案例 ， 都 是 放 在 org. apache. spark. examples 包 下 ， 
并 且 它 提供 了 一 个 run - example 命令 令 可 以 让 我 们 瑟 接 运 到 行 这 些 案 例 。 PARNER AAH 
Spark 的 bin 目录 下 ， 使 用 run - example 命令 运行 org. apache. spark. examples. LocalPi 这 个 类 。 


root@SparkMaster:/usr/local/spark/spark-1.1.0-bin-hadoop2.4/bin# ls 
run-example2.cmd  spark-class.cmd 


compute-classpath.cmd pyspark2.cmd run-example.cmd spark-submit.cmd 
pyspark.cmd 
load-spark-env.sh spark-class2.cmd 
root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4/bin# ./run-example org.apache.spark.examples.Local 
Pi local 


Spark assembly has been built with Hive, including Datanucleus jars on classpath 
Pi is roughly 3.14976 
root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4/bin# ff 


在 Shell 命令 终端 ， 可 以 看 到 打印 出 了 M d 14976" 这 个 经 

(2) 本 地 模式 的 标准 写法 是 locall N] ， 这 里 的 N 表示 的 是 打开 N 个 线程 进行 多 线程 运 
行 。 下 面 演示 的 是 使 用 4 个 线程 来 运行 LocalPi， 只 需要 在 run - example 命令 的 附加 参数 加 
上 local[4]， 当 然 这 里 最 终 的 运行 结果 和 上 面 的 一 样 。 


root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4/bin# run-example org. 
apache.spark.examples.LocalPi local[4] 

Spark assembly has been built with Hive, including Datanucleus jars on classpath 
Pi is roughly 3.14272 

root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4/bin# ii 


(3) 除了 在 命令 终端 提交 任务 的 部 署 工 具 后 面 的 附加 参数 添加 运行 模式 ， 我 们 还 可 以 


直接 在 目 己 编写 的 代码 的 具体 实现 中 添加 运行 模式 。 比 如 在 下 述 案例 代码 中 ， 通 过 在 Spark- 
Conf 对 象 的 setMaster 方法 里 添加 local 来 指定 是 本 地 运行 模式 。 


package org.apache.spark. examples 


nimport e 


i/** Computes an approximation to pi */ y 
jobject SparkPi { oo Master 
3 def main(args: Array[String]) { 
val conf = new SparkConf () .setHaster("local")setAppName ("Spark Pi") 
val spark = new SparkContext (conf) 
val slices = if (args.length > 0) args(0).toInt else 2 
: val n = 100000 * slices 
3 val count = spark.parallelize(1 to n, slices).map 1 i => 
val x = random * 2 - 1 
val y = random * 2 - 1 
| if (x*x + UY < 1) 1 else 0 
3 }.reduce(_ + _) 
println(' Y is roughly " + 4.0 * count / n) 
spark.stop()| 


这 里 需要 注意 的 是 ， 在 用 户 自 己 编写 的 程序 中 设置 的 运行 模式 的 优先 级 要 大 于 在 Spark 
应 用 程序 部 署 工 具 附 加 的 参数 里 设置 的 值 。 比 如 在 Spark Submit 的 附加 参数 中 添加 Yarn 运 
行 模式 ， 而 在 用 户 自 己 写 的 应 用 程序 里 设置 了 Local 运行 模式 ， 这 时 Spark 应 用 程序 在 实际 
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运行 的 时 候 会 采用 Local 运行 模式 。 但 是 我 们 为 了 使 得 应 用 程序 能 够 更 加 灵活 多 变 地 部 闭 在 
各 种 模式 下 ， 不 建议 把 运行 模式 相关 的 值 在 自己 编写 的 代码 里 写 和 人。 


Local 模式 内 部 实现 原理 


本 地 模式 (Local) 使 用 LocalBackend 类 配合 TaskSchedulerImpl 类 来 完成 任务 的 调度 。 
下 面 我 们 结合 Spark 1. 2 的 源 代码 来 分 析 一 下 它 的 内 部 实现 原理 。 

1. 在 SparkContext 对 象 创建 的 时 候 会 同时 在 其 内 部 调用 自己 的 createTaskScheduler( ) 方 
法 初始 化 TaskSchedulerImpl 调度 器 ， 同 时 会 根据 运行 模式 的 参数 值 来 匹配 所 需要 选择 的 运行 
模式 ， 然 后 生成 LocalBackend 的 对 象 。 并 把 backend 当 作 参数 传递 给 TaskSchedulerImpl 的 in- 
tialize 方法 。 


/ x% 

* Create a task scheduler based on a given master URL. 

* Return a 2 - tuple of the scheduler backend and the task scheduler. 

* / 

private defcreateTaskScheduler( 
sc ; SparkContext , 
master ; String) : ( SchedulerBackend, TaskScheduler) = | 

// Regular expression used for local| N] and local[ * | master formats 

val LOCAL N. REGEX ="""local\[ ((0-9] + | Vs )V]""".r 

// Regular expression for local| N, maxRetries] , used in tests with failing tasks 

val LOCAL N. FAILURES, REGEX =""" local\[ ({0 29] + | V) Ns , s ([(0-9] +) 
(USTe 

// Regular expression for simulating a Spark cluster of | N, cores, memory | locally 
val LOCAL CLUSTER, REGEX = 
""" local - cluster | s ([0-9] +)\s*,\s*([0-9] 2) Ns , ss ([0-9] 9) Ns ]""".r 

// Regular expression for connecting to Spark deploy clusters 

val SPARK_REGEX ="""spark://(. x )""".r 

// Regular expression for connection toMesos cluster by mesos:// or zk;// url 

val MESOS REGEX =""" (mesos | zk) :;//. x""" r 

// Regular expression for connection toSimr cluster 


val SIMR_REGEX ="""simr;//(. x )""".r 


// When running locally, don't try to re — execute tasks on failure. 


val MAX, LOCAL TASK FAILURES = 1 


master match | 
case "local" => // 初 始 化 TaskSchedulerImpl 
val scheduler = newTaskSchedulerlmpl( sc, MAX LOCAL TASK FAILURES, isLocal = true) 


// 由 于 是 Local 模式 ,这 里 选择 的 是 LocalBackend 
val backend = newLocalBackend( scheduler, 1) 
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scheduler. initialize( backend ) 


( backend, scheduler) 


case LOCAL N. REGEX(threads) => 
deflocalCpuCount = Runtime. getRuntime. availableProcessors ( ) 
// local| * | estimates the number of cores on the machine; local| N] uses exactly N threads. 
valthreadCount = if (threads == " *") localCpuCount else threads. tolnt 
if (threadCount <= 0) | 
throw newSparkException( s" Asked to run locally with $threadCount threads" ) 
| 
val scheduler = newTaskSchedulerImpl (sc, MAX LOCAL TASK FAILURES, isLocal = true) 
val backend = newLocalBackend( scheduler, threadCount ) 
// backend 当 作 参数 传递 给 TaskSchedulerImpl 的 intialize 方法 
scheduler. initialize( backend ) 


( backend, scheduler) 


2. 这 时 候 TaskScheduler (TaskSchedulerImpl 8542 2$) 中 调用 submitTasks 方法 提交 任务 
的 时 候 ， 它 内 部 的 backend 是 LocalBackend XJ Z, backend 调用 reviveoffers 方法 进行 资源 
申请 。 


override defsubmitTasks(taskSet:TaskSet) | 
val tasks = taskSet. tasks 
logInfo( " Adding task set " + taskSet. id +" with " + tasks. length +" tasks" ) 
this. synchronized | 
val manager = newTaskSetManager( this, taskSet, maxTaskFailures ) 
activeTaskSets( taskSet. id) 2 manager 


schedulableBuilder. addTaskSetManager( manager, manager. taskSet. properties ) 


if (! isLocal && ! hasReceivedTask) | 
starvationTimer. scheduleAtFixedRate( new TimerTask( ) | 
override def run( ) | 
if ( ! hasLaunchedTask ) | 
logWarning( " Initial job has not accepted any resources; " + 
"check your cluster UI to ensure that workers are registered " + 
"and have sufficient memory" ) 
| else | 


this. cancel( ) 


| 
| , STARVATION_TIMEOUT, STARVATION_TIMEOUT) 
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hasReceivedTask = true 


| 
backend. reviveOffers( )”// 这 里 的 backend 是 Localbackend 


| 


3. 在 LocalBackend 调用 reviveOffers( ) 方法 后 ， 会 发 送 一 个 ReviveOffers 消息 给 目 己 的 内 
部 类 LocalActor 接收 并 处 理 该 消息 。 


private[ spark | classLocalBackend( scheduler:TaskSchedulerImpl ，val totalCores ; Int ) 
extendsSchedulerBackend with ExecutorBackend | 


" 


private valappld =" local — " + System. currentTimeMillis 


varlocalActor: ActorRef = null 


override def start( ) | 
localActor 2 SparkEnv. get. actorSystem. actorOf( 
Props ( newLocalActor( scheduler, this, totalCores) ) , 
" LocalBackendActor" ) 


override def stop( ) | 
localActor ! StopExecutor 


| 


override defreviveOffers( ) | 


localActor ! ReviveOffers // 发 送 申 请 资源 的 消息 给 LocalActor 处 理 


4. localActor 通过 自己 的 receiveWithLogging( ) 方 法 接受 到 ReviveOffers 消息 ， 并 结合 Sca- 
la 语言 的 模式 匹配 进行 消息 的 处 理 ， 这 时 会 继续 调用 LocalBackend 的 reviveOffers( ) 方 法 。 需 
要 注意 的 是 ， 在 这 里 的 消息 通信 用 到 的 是 基于 Scala 语言 的 Actor 模型 的 Akka 通信 ， 对 于 
Akka 通信 原理 的 详细 分 析 ， 我 们 会 在 第 5 草 详细 介绍 。 


override defreceiveWithLogging = | 
case ReviveOffers => 


reviveOffers( ) 


5. localbackend 根据 可 用 的 CPU 核 (freeCores) 设 定 值 生 成 资源 (offers) 返回 给 Task- 
Shedulerlmpl 使 用 ， 最 后 通过 Executor 的 launchTask 方法 把 task 发 送 到 线程 池 中 运行 。 因 为 
Local 模式 不 需要 任何 配置 ， 所 有 的 代码 都 是 在 本 地 运行 ， 因 此 我 们 可 以 经 常用 Local 模式 来 
跟踪 调试 程序 用 。 
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def reviveOffers( ) | 
val offers = Seq( new WorkerOffer( localExecutorld , localExecutorHostname, freeCores ) ) 
for (task <- scheduler. resourceOffers (offers). flatten) | 
freeCores -= scheduler. CPUS PER. TASK 
executor. launchTask ( executorBackend, task. taskId, task. name, task. serializedTask ) 
| 
| 


至 此 ， 我 们 把 Local 模式 的 内 部 实现 原理 做 了 一 个 简单 的 分 析 ， 考 虑 到 它 的 内 部 实现 原 
理 只 是 Spark 的 Standalone 运行 模式 的 一 个 特例 ， 所 以 我 们 会 把 Standalone 模式 作为 一 个 重 
点 内 容 进行 分 析 ， 当 理解 了 Standalone 模式 的 内 部 实现 原理 后 ， 对 于 更 深入 地 理解 Local 模 
式 以 及 Yarn 模式 就 会 感到 很 容易 。 
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Standalone 模式 是 Spark FASCIA V WRI EE HEAR, ts e A ERE YER TEE AS 
(比如 MapReduce, Storm) 而 只 用 Spark 进行 大 数据 计算 时 ， 我 们 就 可 以 采用 Standalone fi 
式 。 它 主要 的 结 点 有 Client 结 点 、Master 结 点 和 Worker 结 点 。 其 中 Driver 既 可 以 运行 在 
Master 结 点 上 ， 也 可 以 运行 在 本 地 客户 端 。 当 用 Spark Shell 交互 式 工 具 提 交 Spark 的 Job 或 
者 直接 使 用 run - example 来 运行 Spark 官方 提供 的 示例 时 ，Driver 在 Master 结 点 上 运行 ; “4 
使 用 spark - submit 工具 提交 Job 或 者 在 Eclipse, IDEA 等 开发 平台 上 使 用 “new Spark- 
Conf. setManager(“spark:/[master:7077”) ”方式 运行 Spark 任务 时 ，Driver 是 运行 在 本 地 客 
Pmt Worker 结 点 可 以 通过 ExecutorRunner 来 控制 运行 在 当前 结 点 上 的 CoarseGraine- 
dExecutorBackend 进程 。 每 个 Worker 上 存在 一 个 或 多 个 CoarseGrainedExecutorBackend 进程 ， 
每 个 进程 包含 一 个 Executor 对 象 ， 该 对 象 持 有 一 个 线程 池 ， 每 个 线程 可 以 执行 一 个 Task, 
Client, Master 和 Worker 都 是 基于 AKKA 通信 的 actor 实现 的 进程 ， 彼 此 之 间 可 以 相互 通信 。 

Spark 的 架构 采用 了 分 布 式 计算 中 常见 的 Master - Slaves 模型 ， 和 大 部 分 的 Master - 
Slaves 架构 一 样 ， 都 存在 着 Master 单 点 故障 问题 ， 目 前 Spark 提供 了 两 种 方案 来 解决 此 问题 ， 
一 种 是 基于 文件 系统 的 故障 恢复 模式 ， 这 种 方式 适合 当 Master 进程 挂 挥 之 后 ， 直 接 重 启 即 
可 ; 男 一 种 方式 是 基于 Zookeeper 的 HA (High Available， 也 就 是 高 可 用 性 群集 ) 方式 ，Ac- 
tive Master 挂 掉 之 后 ，Standby Master 会 立即 切换 过 去 继续 对 外 提供 服务 。 


4.3.1 Standalone 模式 实例 部 署 及 


1. Spark Standalone 模式 部 署 的 特点 

(1) 必须 把 Spark 的 部 署 包 安 装 到 到 每 一 人 台 结 点 上 ， 并 且 每 台 结 点 上 的 Spark 的 部 署 目 
录 都 应 相同 。 

(2) 配置 好 Master 结 点 到 其 他 结 点 的 SSH 无 密 钥 登录 ， 在 前 面 的 章节 已 经 演示 过 SSH 
的 无 密 钥 配 置 。 
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(3) 修改 三 个 都 在 $SPARK_HOME/conf 目录 下 的 配置 文件 ， 三 个 文件 分 别 是 spark - 
env. sh, spark - defaults. conf 和 slaves 文件 (考虑 到 现在 电脑 的 硬件 条 件 以 及 我 们 学 习 Spark 
时 的 最 低 配 置 要 求 ， 我 们 在 本 书 中 采用 的 都 是 三 台 机 带 的 集群 配置 ， 其 中 一 台 作 为 Master 
结 点 ， 两 台 分 别 作为 Slaves 结 点 ) 。 > 
2. 集群 参数 配置 
通过 对 集群 参数 的 配置 ， 我 们 可 以 更 加 灵活 的 控制 Spark 集群 的 运行 环境 。 下 面 表 4-3 
列 了 一 些 常 见 的 配置 参数 。 
(1) spark -env 配置 参数 。 


表 4-3 spark -env 配置 参数 


参数 名 称 oe x 
SPARK_MATER_PORT Master 服务 端口 ， 默 认 是 7077 


SPARK. MASTER. WEBUI PORT Master 结 点 对 应 的 Web 服务 的 端口 


SPARK_MASTER_OPTS 设置 只 适用 于 Master 的 配置 属性 ， 形 式 为 “-Dx=y”( 默 认 值 : 20) 


设置 Spark 缓存 空间 目录 , 包括 存储 在 磁盘 上 的 映射 输出 文件 和 RDDS; 这 可 以 是 


没 
SS E 一 种 快速 的 本 地 磁盘 系统 , 也 可 以 是 一 个 以 逗号 分 隔 的 位 于 不 同 磁盘 上 的 多 个 目录 


SPARK_WORKER_CORES 设置 每 个 结 点 提供 给 Applications 可 用 的 CPU 总 数 (AA: 可 用 的 全 部 CPU 数 ) 


设置 每 个 结 点 提供 给 Applications 可 用 的 内 存 总 量 。 注 意 : 单个 Application 的 内 存 
配置 使 用 它 的 spark. executor. memory 属性 


SPARK WORKER. PORT 在 特定 端口 上 启动 orker (默认 : 随机 值 ) 
SPARK WORKER. WEBUI PORT Worker Web UI 端口 (默认 值 : 8081) 
在 每 台 机 器 上 运行 的 Worker 实例 数量 (默认 值 : 1)。 如 果 你 有 非常 多 的 机 器 ,并 
日 希望 启动 多 个 spark - worker 进程 ， 可 以 使 Worker 的 实例 数 大 于 1。 如 果 这 样 设 


置 ， 还 要 确保 设置 环境 变量 SPARK_WORKFR_CORFS 来 明确 限制 每 个 Worker 所 允 
许 使 用 的 内 核 总 数 ， 否 则 每 个 Worker 将 会 尝试 使 用 所 有 的 处 理 器 内 核 


WH. applications 的 运行 目录 ， 包 括 日 志和 和 暂 存 空间 (默认 值 : SPARK_HOME / 


SPARK_WORKER_MEMORY 


SPARK WORKER, INSTANCES 


SPARK WORKER. DIR 


work ) 
SPARK WORKER, OPTS 设置 只 适用 于 Worker 的 配置 属性 ， 形 式 为 “- Dx=y”( 默 认 值 : 20) 
SPARK_DAEMON_MEMORY 为 Master 和 Worker 的 守护 进程 分 配 内 存 (默认 值 : 512M) 


Master 和 Worker 守护 进程 的 JVM 选项 ，( 默 认为 : 无 )。 例 如 : SPARK_DAEMON_JA- 
VA_OPTS =”- Dspark. deploy. recoveryMode = ZOOKEEPER - Dspark. deploy. zookeeper. url = 
hostl :port ,host2 :port ^ — Dspark. deploy. zookeeper. dir 2/spark": 用 于 指定 Master 的 HA, 
此 处 采用 的 是 zookeeper 方式 ， 并 且 属 性 ”spark. deploy. zookeeper. url” 对 应 的 值 为 Zoo- 
keeper 集群 的 地 址 ,” spark. deploy. zookeeper. dir" 7j Spark 在 Zookeeper 集群 上 注册 结 点 


SPARK_DAEMON_JAVA_OPTS 


路 径 
用 于 限定 每 个 提交 的 Spark Application 使 用 的 CPU 核 的 数目 ， 因 为 默认 情况 下 提 
SPARK_JAVA_OPTS 交 的 Application 会 使 用 所 有 集群 中 剩余 的 CPU core。 例 如 : SPARK_JAVA - OPTS 


=” — Dspark. cores. max 24" 


SPARK, PUBLIC. DNS 设置 Masterr 和 Workers 的 公共 DNS 名 称 (默认 值 : 20) 


(2) slaves 文件 配置 。Slaves 结 点 中 保存 的 是 Worker 结 点 的 HostName 或 者 PP， 类 似 如 
下 的 配置 : 


SparkWorkerl // HostName 
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Spark Worker2 // HostName 


将 配置 好 的 Spark 文件 用 SSH 的 sep 命令 复制 到 Spark 集群 的 其 他 结 点 的 相同 路 径 中 ， 
在 系统 环境 变量 中 配置 上 SPARK_HOME 方便 使 用 spark - shell 或 者 其 他 Spark 的 命令 
脚本 。 

另外 要 注意 每 个 Worker 结 点 进程 的 CPU 个 数 和 内 存 的 大 小 ， 要 结合 机 带 人 硬件 的 实际 情 
况 来 配置 ， 如 有 果 一 个 Worker 结 点 上 的 所 有 Worker 进程 需要 的 CPU 总 数目 或 者 内 存 大 小 超过 
当前 Worker 结 点 的 人 硬件 条 件 ， 则 Worker 进程 会 启动 失败 。 

3. Standalone 模式 下 的 Spark 应 用 程序 运行 演示 

对 于 Standalone 运行 模式 下 的 Spark 应 用 程序 的 运行 ， 在 这 里 我 们 通过 两 个 实例 来 演示 : 
一 个 实例 是 用 Spark 的 交互 工具 Spark Submit 提交 Spark 应 该 程序 给 Spark 集群 运行 ， 第 二 个 
实例 是 使 用 分 布 式 系统 中 经 常 使 用 的 HA( (High Available) 工具 Zookeeper 来 处 理 Spark 应 用 
程序 在 Spark 集群 运行 过 程 中 的 Master 单 点 故障 问题 。 

(1) 用 Spark Submit 工具 提交 Spark 应 用 程序 给 集群 运行 。 

在 这 里 我 们 还 是 化 繁 为 简 ,， 用 Spark 1. 2 源码 提供 的 示例 代码 SparkPi 来 演示 如 何 通过 
Spark Sumit 工具 提交 Spark 应 用 程序 给 Spark 集群 运行 ， 然 后 在 Spark 的 WebUI 上 查看 Spark 
作业 (应 用 ) 运行 消息 。 

1) 启动 HDFS。 因 为 我 们 是 用 Spark 来 进行 数据 计算 ， 而 数据 的 存储 使 用 的 是 HDFS, 
所 以 这 里 需要 启动 HDFS 文件 系统 ， 但 是 不 需要 局 动 Hadoop, 

root@SparkMaster: /usr/local/hadoop/hadoop-2.4.1/sbin# ./start-dfs.sh 

Starting namenodes on [SparkMaster] 

SparkMaster: starting namenode, logging to /usr/local/hadoop/hadoop-2.4.1/logs 
/hadoop-root-namenode-SparkMaster.out 

SparkWorkeri: starting datanode, logging to /usr/local/hadoop/hadoop-2.4.1/log 
s/hadoop-root-datanode-SparkWorker1.out 

SparkWorker2: starting datanode, logging to /usr/local/hadoop/hadoop-2.4.1/log 
s/hadoop-root-datanode-SparkWorker2.out 

Starting secondary namenodes [0.0.0.0] 


0.8.0.0: starting secondarynamenode, logging to /usr/local/hadoop/hadoop-2.4.1 
/Vogs/hadoop-root-secondarynamenode-SparkMaster.out 


2) 启动 Spark 集群 。 启 动 Spark 集群 的 命令 在 Spark 的 sbin 目录 下 ， 这 里 需要 注意 的 是 
由 于 Hadoop 也 有 start - all. sh 命令 ， 为 了 跟 它 区 分 开 来 ， 我 们 在 Spark 的 sbin 目录 下 ,会 用 
. /start — all. sh 命令 来 启动 Spark 集群 ， 其 中 “. ”表示 的 就 是 当前 目录 了 。 


rootüSparkMaster:/usr/local/spark/spark-1.1.0-bin-hadoop2.4/sbinst ./start-all. 
sh 

starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/sp 
ark-1.1.0-bin-hadoop2.4/sbin/../logs/spark-root-org.apache.spark.deploy.master 
.Master-1-SparkMaster.out 

SparkWorkeri: starting org.apache.spark.deploy.worker.Worker, logging to /usr/ 
local/spark/spark-1.1.0-bin-hadoop2.4/sbin/../logs/spark-root-org.apache.spark 
.deploy.worker.Worker-1-SparkWorkeri.out 

SparkWorker2: starting org.apache.spark.deploy.worker.Worker, logging to /usr/ 
local/spark/spark-1.1.0-bin-hadoop2.4/sbin/../logs/spark-root-org.apache.spark 
.deploy.worker.Worker-1-SparkWorker2.out 


3) 用 Spark Submit 提交 作业 。 在 spark - submit 命令 的 附加 参数 里 我 们 加 入 了 “ -- 
class”、“ 一 -master” 以 及 伴生 对 象 SparkPi 所 在 的 Jar 包 。 
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root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4# ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master 
spark://SparkMaster:7977 lib/spark-examples*.jar 

Spark assembly has been built with Hive, including Datanucleus jars on classpath 

15/04/09 01:54:53 INFO spark.SecurityManager: Changing view acls to: root, 

15/04/09 01:54:53 INFO spark.SecurityManager: Changing modify acls to: root, 

15/04/09 01:54:53 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissi 

ons: Set(root, ); users with modify permissions: Set(root, ) 

15/04/09 01:54:53 INFO sLf4j.Slf4jLogger: Slf4jLogger started 

15/84/89 61:54:53 INFO Remoting: Starting remoting 

15/04/09 01:54:54 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriver@SparkMaster: 60309 ] 
15/04/09 01:54:54 INFO Remoting: Remoting now listens on addresses: [akka.tcp://sparkDriver@SparkMaster : 60309 ] 

15/04/09 01:54:54 INFO util.Utils: Successfully started service 'sparkDriver' on port 60309. 

15/04/09 01:54:54 INFO spark.SparkEnv: Registering MapOutputTracker 

15/04/09 01:54:54 INFO spark.SparkEnv: Registering BlockManagerMaster 

15/84/89 81:54:54 INFO storage.DiskBlockManager: Created local directory at /tmp/spark-local-20158409015454-c63c 

15/04/09 01:54:54 INFO util.Utils: Successfully started service 'Connection manager for block manager' on port 41977. 
15/04/09 01:54:54 INFO network.ConnectionManager: Bound socket to port 41977 with id = ConnectionManagerId(SparkMaster,41977) 
15/84/89 01:54:54 INFO storage.MemoryStore: MemoryStore started with capacity 267.3 MB 

15/84/89 01:54:54 INFO storage.BlockManagerMaster: Trying to register BlockManager 

15/84/89 01:54:54 INFO storage.BlockManagerMasterActor: Registering block manager SparkMaster:41977 with 267.3 MB RAM 
15/04/89 01:54:54 INFO storage.BlockManagerMaster: Registered BlockManager 

15/04/09 01:54:54 INFO spark.HttpFileServer: HTTP File server directory is /tmp/spark-bf99f26a-e471-48b5-9ef1-479bd7fc6c53 
15/04/09 01:54:54 INFO spark.HttpServer: Starting HTTP Server 

15/04/89 01:54:54 INFO server.Server: jetty-8.y.z-SNAPSHOT 

15/04/09 01:54:54 INFO server.AbstractConnector: Started SocketConnector@0.0.0.0:57644 


4) TE Spark If] WebUI 控制 台 查看 作业 (OH) 运行 情况 (如 图 4-2 tas). TE Spark 
WebUI 中 ， 对 作业 监控 的 IP 和 地 址 是 : MasterIP: 8080， 其 中 MasterIP 就 是 Master 结 点 的 卫 
地 址 或 主机 名 8080 端口 是 默认 的 监控 端口 ， 如 有 果 不 想 使 用 8080 端口 ， 需 要 在 spark - 
env. sh 文件 里 面 配 置 SPARK_MASTER_WEBUI_PORT 来 重新 指定 端口 号 。 


Spark: Spark Master at spark://SparkMaster:7077 


URL: spark//SparkMaster:7077 
Workers: 2 

Cores: 4 Total, 0 Used 

Memory: 4.0 GB Total, 0.0 B Used 
Applications: 0 Running, 1 Completed 
Drivers: 0 Running, 0 Completed 


Status: ALIVE 

Workers 

ld Address State 
worker-20150409015123-SparkWorker1-37138 SparkWorker1 337138 ALIVE 
worker-20150409015123-SparkWorker2-39699 SparkWorker2:39699 ALIVE 


Running Applications 


ID Name Cores Memory per Node Submitted Time 


Completed Applications 
ID Name Cores Memory per Node Submitted Time 
app-20150409015512-0000 Spark Pi 0 512.0 MB 2015/04/09 01:55:12 


图 4-2 作业 运行 情况 


在 图 4-2 中 ， 我 们 在 Completed Application 选项 下 面 看 到 运行 了 一 个 Name 为 SparkPi 的 
作业 ， 并 且 该 集群 中 一 共有 两 个 Worker 结 点 ， 四 颗 CPU (Cores), 

(2) 在 HA 方式 下 用 Spark Submit 工具 提交 Spark 应 用 给 集群 运行 。 

在 使 用 基于 Zookeeper 的 HA 之 前 我 们 先 简单 介绍 一 下 HA 和 Zookeeper 的 基本 概念 。 

高 可 用 性 (High Availability, fpr HA) 集群 是 共同 为 客户 机 提供 网 络 资源 的 一 组 计算 
机 系统 。 其 中 每 一 台 提 供 服务 的 计算 机 称 为 结 点 (Node)。 当 一 个 结 点 不 可 用 或 者 不 能 处 理 
客户 的 请 求 时 ， 该 请 求 会 及 时 转 到 另外 的 可 用 结 点 来 处 理 ， 而 这 些 对 于 客户 端 是 透明 的 ， 客 
户 不 必 关 心 要 使 用 资源 的 具体 位 置 ， 集 群 系统 会 自动 完成 。 

而 ZooKeeper 是 一 个 开放 源码 的 分 布 式 应 用 程序 协调 服务 ， 它 也 是 一 个 为 分 布 式 应 用 提 
供 一 致 性 服务 的 软件 ， 提 供 的 功能 包括 : 配置 维护 、 名 字 服 务 、 分 布 式 同步 、 组 服务 等 。 

Zookeeper 通过 一 种 和 文件 系统 很 像 的 层级 命名 空间 来 让 分 布 式 进程 互相 协同 工作 。 这 
些 命名 空间 由 一 系列 数据 寄存 器 组 成 ， 我 们 也 叫 这 些 数据 寄存 需 为 znodes。 这 些 znodes 就 有 


e 
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点 像 是 文件 系统 中 的 文件 和 文件 夹 。 和 文件 系统 不 一 样 的 是 ， 文 件 系统 的 文件 是 存储 在 存储 
区 上 的 ， 而 Zookeeper 的 数据 是 存储 在 内 存 上 的 。 同 时 ， 这 就 意味 着 Zookeeper 有 着 高 吞吐 和 
IRIE o Zookeeper 实现 了 高 性 能 、 高 可 靠 性 和 有 序 的 访问 。 高 性 能 保证 了 Zookeeper 能 应 用 
在 大 型 的 分 布 式 系统 上 ; 高 可 靠 性 保证 它 不 会 由 于 单一 结 点 的 故障 而 造成 任何 问题 ， 有 序 的 
访问 能 保证 客户 端 可 以 实现 较为 复杂 的 同步 操作 。 

下 面 我 们 演示 Zookeeper 的 安装 以 及 通过 Zookeeper 方式 Spark 作业 的 运行 以 及 如 何 
容错 。 

1) 安装 Zookeeper。 下 载 Zookeeper 安装 包 ， 并 解压 到 自己 创建 的 目录 下 进行 管理 。 同 
时 创建 两 个 目录 ， 一 个 是 数据 目录 ， 一 个 日 志 目 录 。 


rootgüSpark1:/usr/local/zookeeper-3.4.64 ls -lr 


total 1564 

-TW-FW-r-- rocky rocky 41 Feb 28 2014 zookeeper-3.4.6.jar.sha1 
-rWw-rw-r-- rocky rocky 33 Feb 20 2014 zookeeper-3.4.6.jar.md5 
-rW-rw-r-- rocky rocky 836 Feb 20 2014 zookeeper-3.4.6.jar.asc 
-TW-FW-Fr-- rocky rocky 1340305 Feb 28 2014 zookeeper-3.4.6.jar 


drwxr-xr-x 
drwxr-xr-x 


rocky rocky 4096 Feb 20 2014 src 
rocky rocky 4096 Feb 20 2014 recipes 


-rWw-rw-r-- rocky rocky 1585 Feb 20 2014 README.txt 

-rw-rw-r-- rocky rocky 1770 Feb 20 2014 README packaging.txt 
-rW-rW-r-- rocky rocky 170 Feb 20 2014 NOTICE.txt E 
drwxr-xr-x root root 4096 Apr 3 19:29 logs A— Bi Ho 


1 

1 

1 

1 

8 

5 

1 

1 

1 

2 
-rWw-rw-r-- 1 rocky rocky 11358 Feb 20 2014 LICENSE.txt 
drwxr-xr-x 4 rocky rocky 4096 Feb 20 2014 lib 
-rW-rw-r-- 1 rocky rocky 3375 Feb 20 2014 ivy.xml 
-rWw-rw-r-- 1 rocky rocky 1953 Feb 20 2014 ivysettings.xml 
drwxr-xr-x 6 rocky rocky 4096 Feb 20 2014 docs 
drwxr-xr-x 2 rocky rocky 4096 Feb 20 2014 dist-maven 
drwxr-xr-x 3 root root 4096 Apr 3 21:16 data? 
drwxr-xr-x 2 root root 4096 Apr 18 12:10 data 一 一 数据 目录 
drwxr-xr-x 18 rocky rocky 4096 Feb 28 2814 contrib 
drwxr-xr-x 2 rocky rocky 4096 Apr 18 12:88 conf 
-rw-rw-r-- 1 rocky rocky 80776 Feb 20 2014 CHANGES.txt 
-rw-rw-r-- 1 rocky rocky 82446 Feb 20 2014 build.xml 
drwxr-xr-x 2 rocky rocky 4096 Apr 18 12:57 bin 


2) 配置 : 进 到 conf H3& P, fE zoo_sample. cfg 复制 一 份 为 zoo. cfg (这 一 步 是 必须 的 ， 
否则 zookeeper 不 认识 zoo, sample. cfg) ， 并 添加 如 下 内 容 : 
dataDir = /root/install/zookeeper — 3. 4. 6/data 
dataLogDir = /root/install/zookeeper — 3. 4. 6/logs 


server. 1 = spark] :2888 :3888 
server. 2 = spark2 :2888 :3888 


3) 4F/usr/local/zookeeper — 3. 4. 6/data 目录 下 创建 myid 文件 ， 并 在 里 面 写 1。 


cd /root/install/zookeeper — 3. 4. 6/data 
echo 1 » myid 


用 vim 打开 myid 文件 ， 查 看 里 面 的 内 容 。 


root@Spark1: /usr/local/zookeeper-3.4.6/data 


4) 把 Sparkl 结 点 上 的 /usr/local/zookeeper -3.4.6 整个 目录 复制 到 Spark 集群 的 其 他 结 


Spark 的 运行 模式 


《这 里 我 们 的 集群 只 包括 Sparkl 和 Spark2 两 个 结 点 ) Eo 


scp —r /usr/local/zookeeper — 3. 4. 6 root@ spark2 ;/usr/local/ 


5) 登录 到 Spark2 结 点 上 ， 修 改 myid 文件 里 的 值 ， 将 其 修改 为 2。 e 
rootüSpark2:/usr/local/zookeeper-3.4.64 ls -lr 
total 1560 
-TW-D--D-- root root 41 Apr 18 16:49 zookeeper-3.4.6.jar.sha1 
-rw-r--r-- root root 33 Apr 18 16:49 zookeeper-3.4.6.jar.md5 
-rw-r--r-- root root 836 Apr 18 16:49 zookeeper-3.4.6.jar.asc 
-rw-r--r-- root root 1340305 Apr 18 16:49 zookeeper-3.4.6.jar 


drwxr-xr-x 
drwxr-xr-x 


root root 4096 Apr 18 16:49 src 
root root 4096 Apr 18 16:49 recipes 


-rw-r--r-- root root 1585 Apr 18 16:49 README.txt 
-rw-r--r-- root root 1770 Apr 18 16:49 README packaging.txt 
-rW-r--r-- root root 170 Apr 18 16:49 NOTICE.txt 
drwxr-xr-x root root 4096 Apr 18 16:49 logs 

-rw-r--r-- root root 11358 Apr 18 16:49 LICENSE.txt 
drwxr-xr-x root root 4096 Apr 18 16:49 lib 

-rw-r--r-- root root 3375 Apr 18 16:49 ivy.xml 

-rw-r--r-- root root 1953 Apr 18 16:49 ivysettings.xml 


drwxr-xr-x 
drwxr-xr-x 
drwxr-xr-x 
drwxr-xr-x 
drwxr-xr-x 


root root 4096 Apr 18 16:49 docs 

root root 4096 Apr 18 16:49 dist-maven 
root root 4096 Apr 18 16:49 data 

root root 4896 Apr 18 16:49 contrib 
root root 4096 Apr 18 16:49 conf 


m 
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-rw-r--r-- root root 80776 Apr 18 16:49 CHANGES.txt 
-TW-r--r-- root root 82446 Apr 18 16:49 build.xml 
drwxr-xr-x root root 4096 Apr 18 16:49 bin 

A ^ 

输入 以 下 命令 


cd /usr/local/zookeeper -3. 4. 6/data 


echo 2 > myid 


用 vim 打开 myid 文件 ， 查 看 里 面 的 内 容 。 


Terminal 
| [f] root@Spark2: /usr/local/zookeeper-3.4.6/data 


6) 在 Sparkl ，Spark2 两 个 结 点 上 分 别 启 动 Zookeeper， 查 看 进程 是 否 开 启 ， 其 中 Quo- 
rumPeerMain ii Zookeeper 的 进程 。 


cd /usr/local/zookeeper - 3. 4. 6 

bin/zkServer. sh start 

| root@ spark2 zookeeper -3. 4. 6 | # bin/zkServer. sh start 

JMX enabled by default 

Using config ;/root/install/zookeeper — 3. 4. 6/bin/. . /conf/zoo. cfg 
Starting zookeeper ... STARTED 

| root@ spark2 zookeeper —3. 4. 6 |# jps 

2490 Jps 

2479 QuorumPeerMain 
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7) 配置 Spark 的 HA。 进 到 Spark 的 conf 目录 ， 在 spark - env. sh 修改 代码 如 下 : 


export SPARK DAEMON JAVA OPTS-"-Dspark.deploy.recoveryMode-ZOOKEEPER - 
Dspark.deploy.zookeeper.url-SparkMaster:2181,SparkWorkeri:2181 -Dspark.deploy.zookeeper.dir-/spark" 
export JAVA HOME-/usr/lib/java/jdk1.7.8 67 

export SCALA HOME-/usr/lib/scala/scala-2.11.4 

export HADOOP HOME-/usr/local/hadoop/hadoop-2.4.1 Zookeeper 的 配置 

export HADOOP CONF DIR-/usr/local/hadoop/hadoop-2.4.1/etc/hadoop 

export SPARK MASTER IP-Sparki1 

export SPARK WORKER MEMORY-2g 

export SPARK WORKER CORES-2 

export SPARK WORKER INSTANCES-1 


8) 使 用 以 下 命令 把 spark — env. sh 配置 文件 分 发 到 其 他 各 个 结 点 上 去 。 

scp spark — env. sh root? spark ;/usr/local/spark/spark — 1. 1. 0 — bin — hadoop2. 4/conf/ 
9) 使 用 以 下 命令 在 Sparkl 结 点 上 启动 Spark 集群 。 

root@ Spark] :/usr/local/spark/spark — 1. 1. 0 — bin — hadoop2. 4/sbin# . /start — all. sh 


10) 进 到 Spark2 结 点 的 sbin HÆ F, JH SJ "start - master. sh” 命令 ， 当 Sparkl 结 点 挂 
掉 时 ，Spark2 结 点 顶替 当 Sparkl, 

spark-daemon.sh spark-executor  start-history-server.sh start-sla 

spark-daemons.sh  start-all.sh start-master.sh start-sla 


[usr/local/spark/spark-1.1.60-bin-hadoop2.4/sbinis ./start-master.sh 
che.spark.deploy.master.Master, logging to /usr/local/spark/spark-1.1 


11) 在 命令 终端 用 jps 命令 查看 Sparkl 和 Spark2 上 运行 了 哪些 进程 。 


| root@ sparkl spark — 1. 1 ]# jps 
5797 Worker 

5676 Master 

6287 Jps 

2602 QuorumPeerMain 

| root? spark2 spark — 1. 1 ]# jps 
2479 QuorumPeerMain 

5750 Jps 

5534 Worker 

5635 ter 


yo 


12) 测试 HA 是 否 生 效 。 先 查看 一 下 两 个 结 点 的 运行 情况 ， 现 在 Sparkl 运行 了 Master 
(如 图 4-3 所 示 )，Spark2 是 待命 状态 (如 图 4-4 所 示 ) 。 
在 Sparkl 上 把 Master 服务 停 掉 。 


| root@ sparkl spark —1. 1 |#sbin/stop — master. sh 
stopping org. apache. spark. deploy. master. Master 
| root@ sparkl spark — 1. 1 ]# jps 

5797 Worker 

6373 Jps 

2602 QuorumPeerMain 


4S4 Sparki ZiT 


Spark Master at spark://spark1:7077 - Mozilla Firefox 


File Edit View History Bookmarks Tools Help 
ES v RJ fü | 全 http//spark1:8080/ v| [av 


fej Most Visitedy "Red Hat Customer Portal Documentation Red Hat Network 


9) Spark Master at spark://spark1:... | 中 


(9 Mozilla Firefox is free and open source software from the non-profit Mozilla Foundation. | Know y 


Spark Spark Master at spark://spark1:7077 


URL: spark://spark1:7077 

Workers: 2 

Cores: 2 Total, 0 Used 

Memory: 2.0 GB Total, 0.0 B Used 
Applications: 0 Running, 0 Completed 
Drivers: 0 Running, 0 Completed 
Status: ALIVE 


Workers 
Id Address State Cores Memory 
worker-20140725232649-spark1-48888 spark1:48888 ALIVE 1 (0 Used) 1024.0 MB (0.0 B Used) 
5232649-spark2-45310 spark2:45310 ALIVE 1 (0 Used) 1024.0 MB (0.0 B Used) 
图 4-3 Spark] 的 运行 状况 
a Applications Places system QJ) & 7 Fri Jul 25, 11:53PM | m" rod 
Browse and run installed applications Spark Master at spark://spark2:7077 - Mozilla Firefox =a =| 


File Edit View History Bookmarks Tools Help 


E] v RM @ | 图 | http:/spark2:8080/ Mie M 


Œ Most Visitedy Red Hat Customer Portal M Documentation Red Hat Network 


[6] Spark Master at spark://spark2:... | 4 


(9 Mozilla Firefox is free and open source software from the non-profit Mozilla Foundation. Know your rights... | 


Spa Spark Master at spark://spark2:7077 


URL: spark://spark2:7077 

Workers: 2 

Cores: 2 Total, 0 Used 

Memory: 2.0 GB Total, 0.0 B Used 
Applications: 0 Running, 0 Completed 
Drivers: 0 Running, 0 Completed 
Status: ALIVE 


Workers 
Id Address State Cores Memory 
worker-20140725232649-spark1-48888 spark1:48888 ALIVE 1 (0 Used) 1024.0 MB (0.0 B Used) 
rker-20140725232649-spark2-4531 spark2:45310 ALIVE 1 (0 Used) 1024.0 MB (0.0 B Used) 


图 4-4 Spark2 的 运行 状况 


在 WebUI 上 访问 Sparkl 的 8080 端口 ， 看 是 否 还 处 于 运行 状态 (active), MBI 4-5 中 可 
以 看 到 显示 “unable to connect”， 这 表示 Sparkl 结 点 上 的 Master 已 经 挂 掉 。 

再 用 WebUI 访问 查看 Spark2 的 状态 ,从 图 4-6 看 出 ，Spark2 已 经 被 切换 当 
Master 了 。 

通过 以 上 两 个 案例 ， 我 们 分 析 了 在 Standalone 运行 模式 下 如 何 向 Spark 集群 提交 作业 
(应 用 )， 以 及 对 于 Spark 集群 本 里 的 单 点 故障 问题 ， 如 何 通 过 基于 Zookeeper 的 HA 进行 
解决 。 在 讲解 了 Standalone 运行 的 实际 部 署 问题 后 ， 我 们 下 一 步 趁 热 打铁 结合 Spark 1. 2 
的 源码 来 更 深层 次 的 分 析 Standalone 模式 的 内 部 实现 原理 。 还 是 那 句 话 ， 精 通 原理 会 使 得 
我 们 更 容易 从 整体 上 把 握 Standalong 模式 的 精髓 ， 在 实际 生产 环境 中 出 现 问题 时 可 以 轻松 
地 解决 。 


Spark 核心 源码 分 析 与 开发 实战 


Browse and run installed applications Problem loading page - Mozilla Firefox 
File Edit View History Bookmarks Tools Help 


« e @& | | http://spark1:8080/ >v] |$ 


= Most Visitedy RedHat Mf Customer Portal Documentation M Red Hat Network 


A Problem loading page 中 


(9 Mozilla Firefox is free and open source software from the non-profit Mozilla Foundation. 


A Unable to connect 


Firefox can't establish a connection to the server at spark1:8080. 


= The site could be temporarily unavailable or too busy. Try again in a few 
moments. 


= If you are unable to load any pages, check your computer's network 
connection. 


= If your computer or network is protected by a firewall or proxy, make 
sure that Firefox is permitted to access the Web. 


图 4-5 Sparkl 的 运行 状况 


F Applications Places System QJ) & 7 Frijul25,11:53PM 可 rod 
Browse and run installed applications Spark Master at spark://spark2:7077 - Mozilla Firefox = 

File Edit View - History Bookmarks Tools Help 

E] ~e @ | 回 | http:/spark2:8080/ ~| (ivy: 


E Most Visitedy Red Hat Customer Portal Documentation Red Hat Network 
[© Spark Master at spark://spark2:... | = 


(9 Mozilla Firefox is free and open source software from the non-profit Mozilla Foundation. Know your rights... 


Spaik® Spark Master at spark://spark2:7077 


URL: spark://spark2:7077 

Workers: 2 

Cores: 2 Total, 0 Used 

Memory: 2.0 GB Total, 0.0 B Used 
Applications: 0 Running, 0 Completed 
Drivers: 0 Running, 0 Completed 


Status: ALIVE 
Workers 

Id Address State Cores Memory 
worker-20140725232649-spark1-48888 spark1:48888 ALIVE 1 (0 Used) 1024.0 MB (0.0 B Used) 
worker-20140725232649-spark2-45310 spark2:45310 ALIVE 1 (0 Used) 1024.0 MB (0.0 B Used) 


图 4-6 Spark 的 运行 状况 


4. 3. 2 Standalone 模式 内 部 实现 原理 


我 们 使 用 Spark Submit 方式 提交 作业 为 例 说 明 Standalone 模式 结合 的 运行 原理 ， 这 里 需 
要 注意 的 是 ,一 个 Spark 应 用 可 以 包含 多 个 作业 ， 在 这 里 为 了 人 简单 明了 地 讲 清楚 原理 ， 我 们 
一 般 把 一 个 Spark 应 用 看 成 只 有 一 个 作业 ， 而 对 于 Spark 应 用 程序 的 提交 运行 最 重要 的 就 是 
作业 的 调度 了 ， 所 以 在 下 面 的 内 容 我 们 常会 用 作业 来 代 指 一 个 Spark 应 用 程序 。 由 于 根据 
Driver ( 驱动 程序 ) 在 集群 中 所 处 结 点 位 置 Standalone 模式 也 可 以 分 为 两 种 情况 : 一 种 是 
Driver 在 Worker 结 点 上 运行 的 Cluster 模式 ， 一 种 是 Driver 在 Client (X P Ym) 结 点 运行 的 
Client 模式 。 在 这 里 ， 我 们 选择 Standalone 的 Cluster 模式 来 讲解 ， 而 对 Standalone 的 Client 
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模式 的 分 析 我 们 会 在 第 5 草 讲 解 Spark 的 运行 机 制 时 再 分 析 。 

这 里 涉及 的 结 点 主要 有 Master 结 点 、Worker A, Client 结 点 。 涉 及 的 进程 主要 有 客户 
端 提 交 任 务 进 程 Client, Master, Worker, CoarseGrainedExecutorBackend, F ff dX fi] AVI 
图 4-7 所 示 的 通过 Spark Submit 的 方式 向 Spark 集群 提交 作业 的 流程 图 ， 以 及 通过 Spark 1.2 (S) 
的 源 代 码 来 分 析 以 Standalone 模式 运行 的 Spark 内 部 实现 原理 。 


LaunchDriver ( 启动 驱动 器 
SparkSubmit Master(Active) ( 启动 驱动 器 ) 


RegisterWorker 


RegisterDriver 


(注册 驱动 器 ) 


(注册 Worker) LaunchExecutor 
RegisterApplication ( 启动 执 行 器 ) 
(注册 应 用 ) 


Ce 


spawn process 


(产生 过 程 ) 


LaunchTask 
( 启动 任务 ) 


spawn process 


(产生 过 程 ) 


Driver 


图 4-7 Spark Submit 方式 提交 作业 流程 图 


Spark 作业 (FH) 运行 的 主要 流程 如 下 (以 Spark Submit 模式 提交 ) : 

(1) 我 们 已 经 知道 启动 Spark 集群 是 通过 Spark 的 sbin 目录 下 的 start - all. sh 命令 来 进 
行 的 ， 那 么 现在 我 们 用 vim 文本 编辑 器 打开 start — all. sh 文件 来 看 一 下 它 的 具体 实现 。 

1) 在 start - all sh 这 个 shell 脚本 文件 中 可 以 看 到 ， 最 终 会 调用 两 个 可 执行 文件 stant - 
master. sh 和 start — slaves. sh 来 分 别 启动 Spark 集群 的 Master 结 点 和 Worker 结 点 。 


# Start all spark daemons. 
it Starts the master on this node. 
# Starts a worker on each node specified in conf/slaves 


sbin-s'dirname "$68" 
sbins'cd "Ssbin"; pwd' 


TACHYON STRz"" 
while (( "Sz" )); do 
case $1 in 


--with-tachyon) 
TACHYON_STR="--with-tachyon" 


esac 
shift 
done 


# Load the Spark configuration 
. "Ssbin/spark-config.sh" fd FA start-master.sh 启动 Master 


# Start Master 2 


"Ssbin"/start-master.sh STACHYON STR 


d start Herkers ^ be Astart-slaves.sh JH] Bi Worker 5 m 
Ussbin" /start-slaves.sh STACHYON STR 


2) 继续 跟踪 start — master. sh 文件 ， 在 用 vim 打开 的 start - master. sh 文件 里 ， 最 终 会 通 
过 org. apache. spark. deploy. master. Master 类 的 伴生 对 象 局 动 Master; 
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. "Ssbin/spark-config.sh" 


. "SSPARK PREFIX/bin/load-spark-env.sh" 


if [ "SSPARK MASTER PORT" - "" ]; then 
SPARK MASTER PORT-7077 
fi 
if [ "SSPARK MASTER IP" - "" ]; then 
SPARK MASTER IP-' hostname 
fi 
if [ "SSPARK MASTER WEBUI PORT" = "" ]; then start-master 命 令 启 动 的 是 
SPARK MASTER WEBUI PORT-8886 > org.apache.spark.deploy.master.Master 类 。 
fi 


"Ssbin"/spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip SSPARK MASTER IP --port SSPA 
RK MASTER PORT --webui-port SSPARK MASTER WEBUI PORT 


if [ "SSTART_TACHYON" == "true" ]; then 
"Ssbin"/../tachyon/bin/tachyon bootstrap-conf SSPARK MASTER IP 
"Ssbin"/../tachyon/bin/tachyon format -s 

, "Ssbin"/../tachyon/bin/tachyon-start.sh master 

f 


3) 在 start - slaves 文件 里 ,通过 执行 slaves. sh 命令 ， 会 在 $SPARK. HOME/conf 目录 下 
的 slaves 文件 里 找 到 集群 搭建 时 设置 的 Worker 结 点 的 主机 名 。 了 最终 会 通过 调用 
org. apache. spark. deploy. worker. Worker 类 的 伴生 对 象 来 启动 所 有 Worker 结 点 。 


# Launch the slaves 这 里 最 终 会 根据 Spark 的 conf 目 录 下 的 slaver 文 件 里 配置 的 
if [ "SSPARK WORKER INSTANCES" - "" ]; then 一 Worker 节 点 的 主机 ， 来 启动 Worker。 

exec "Ssbin/slaves.sh" cd "SSPARK HOME" X; "Ssbin/start-slave.sh" 1 spark://SSPARK MASTER IP:S$SPARK M 
ASTER PORT 
else 

if [ "SSPARK WORKER WEBUI PORT" = "" ]; then 

SPARK WORKER WEBUI PORT=8681 
fi 


for ((i=0; i-SSPARK WORKER INSTANCES; i++)); do 
"Ssbin/slaves.sh" cd "SSPARK HOME" X; "Ssbin/start-slave.sh" S(( Si + 1 )) spark://SSPARK MASTER I 
P:SSPARK MASTER PORT --webui-port $(( SSPARK WORKER WEBUI PORT + Si )) 
done 


(2) Master 类 和 Worker 类 都 实现 了 基于 Akka 通信 的 Actor 类 ， 所 以 他 们 之 间 的 消息 通 
信 都 是 借助 Akka 通信 框架 来 进行 的 。 在 Master 类 和 Worker 类 的 初始 化 过 程 中 ， 除 了 要 初始 
化 内 部 的 成 员 变 量 ， 还 会 自动 调用 各 目的 preStart 方法 来 完成 Master 结 点 和 Worker 结 点 的 启 
动 过 程 中 的 一 些 配置 操作 。 当 然 对 于 Worker 结 点 来 说 ， 它 在 局 动 的 过 程 中 ， 还 需要 问 Mas- 
ter 发 送 消息 ， 申 请 注册 。 

1) Æ Worker 类 中 ， 会 在 preStart( ) 方 法 内 部 调用 Worker 类 的 register WithMaster ( ) 3 [8] 
已 经 启动 的 Master 结 点 进行 注册 。 


override def preStart( ) | 
assert ( | registered ) 
logInfo( " Starting Spark worker 96:96 d with 96d cores, 96s RAM". format( 
host, port, cores, Utils. megabytesToString( memory ) ) ) 
logInfo( " Spark home:" + sparkHome ) 
createWorkDir( ) 
context. system. eventStream. subscribe( self, classOf[ RemotingLifecycleEvent | ) 
shuffleService. startIfEnabled( ) 
webUi = new WorkerWebUI( this, workDir, webUiPort ) 
webUi. bind( ) 
registerWithMaster( ) — //Worker 启动 后 ,会 调用 registerWithMaster( ) 77r 1£ [n] Master 注册 
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metricsSystem. registerSource ( workerSource ) 


metricsSystem. start( ) 


| 


2) 我 们 继续 跟踪 registerWithMaster ( ) 方法， 看 它 的 内 部 实现 ， 这 时 它 会 继续 调用 
Worker 类 的 tryRegisterAllMasters ( ) 方 法 来 完成 注册 。 


defregisterWithMaster( ) | 
//DisassociatedEvent may be triggered multiple times, so don't attempt registration 
// if there are outstanding registration attempts scheduled. 
registrationRetryTimer match | 
case None => 
registered = false 
tryRegisterAllMasters() /继续 调用 tryRegisterAllMasters( ) 方 法 来 完成 注册 
connectionAttemptCount =0 
registrationRetryTimer = Some | 
context. system. scheduler. schedule( INITIAL. REGISTRATION RETRY INTERVAL, 
INITIAL REGISTRATION. RETRY. INTERVAL, self, ReregisterWithMaster ) 
| 
case Some(_) => 
logInfo( " Not spawning another attempt to register with the master, since there is an" + 


" 


attempt scheduled already. " ) 


| 


3) 在 tryRegisterAllMasters( ) 方 法 内 部 ， 会 首先 通过 Worker 初始 化 时 绑 定 的 Master 结 点 
的 masterUrl 拿 到 当前 启动 的 Master 结 点 的 引用 ， 然 后 通过 Master 结 点 的 引用 加 Master 发 送 
RegisterWorker 消息 。 


private def tryRegisterAllMasters( ) | 
// 考 虑 到 Spark 集群 可 能 会 使 用 HA 解决 单 点 故障 问题 ,设置 的 masterUrls 不 止 一 个 
// 但 是 在 集群 启动 的 时 候 只 有 一 个 Master 结 点 出 去 active 状态 
for (masterUrl <- masterUrls) | 


" 


+ masterUrl + "...") 
// 这 里 的 actor 是 当前 启动 的 Master 结 点 的 引用 
val actor = context. actorSelection ( Master. toAkkaUrl( masterUrl) ) 
// RIE RegisterWorker 消息 给 Master ,Master 中 的 receiveWithLogging( ) 方 法 接受 消息 并 处 理 
// 然 后 返回 注册 成 功 的 RegisteredWorker 消息 给 Worker 
actor | RegisterWorker( workerld, host, port, cores, memory, webUi. boundPort, publicAddress) 


logInfo( " Connecting to master 


| 


(4) Master 类 和 Worker 类 都 是 通过 各 自 的 receiveWithLogging 方法 进行 消息 的 接受 和 处 
理 ， 当 Master 类 的 receiveWithLogging 方法 收 到 RegisterWorker 消息 后 会 根据 RegisterWorker 
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所 携带 的 要 注册 的 Worker 结 点 的 一 系列 信息 〈 比 如 workerHost workerPort, cores 等 ) 对 其 
进行 注册 ， 当 注册 成 功 后 会 发 送 一 个 RegisteredWorker 消息 给 要 注册 的 Worker 结 点 ， 否 则 会 
发 送 一 个 RegisterWorkerFailed 消息 来 告诉 Worker 结 点 注册 失败 。 


caseRegisterWorker( id, workerHost, workerPort, cores, memory, workerUiPort, publicAddress) => 
| 

logInfo( " Registering worker % s:%d with % d cores, 96s RAM". format( 

workerHost, workerPort, cores, Utils. megabytesToString( memory ) ) ) 

if (state == RecoveryState. STANDBY) | 
// ignore, don't send response 
else if ( idToWorker. contains(id) ) | 
sender ! RegisterWorkerFailed( " Duplicate worker ID" ) 


| else | 

val worker 2 newWorkerlnfo( id, workerHost, workerPort, cores, memory, 
sender, workerUiPort, publicAddress ) 

if ( registerWorker( worker) ) | 
persistenceEngine. add Worker ( worker ) 
sender | RegisteredWorker( masterUrl , masterWebUiUrl ) 
schedule( ) 

| else | 
valworkerAddress = worker. actor. path. address 
logWarning( " Worker registration failed. Attempted to re — register worker at same " + 

"address;" + workerAddress ) 

sender | RegisterWorkerFailed( " Attempted to re — register worker at same address; " 


+ workerAddress ) 


| 


(5) 34 Worker 类 (Worker 结 点 ) 的 receiveWithLogging 方法 接受 到 Master 发 送 过 来 的 
IHE, 2 Scala 的 模式 匹配 进行 消息 的 判断 ， 如 采 是 RegisteredWorker (注册 成 功 ) 的 消 
E, MAH changeMaster( ) 方 法 重新 绑 定 当前 启动 的 Master 结 点 的 masterUrz1， 并 同时 设置 
心跳 (HEARTBEAT) 的 配置 ， 定 时 间 Master 发 送 心跳 。 如 果 收 到 的 消息 是 RegisterWorker- 
Failed (注册 失败 )， 很 简单 ， 它 会 打印 当前 Work 结 点 注册 失败 的 日 志 消 息 并 调用 Sys- 
tem. exit(1) 结 束 当前 运行 的 进程 (每 个 开启 的 Work 结 点 是 在 一 个 JVM 中 运行 的 进程 ) 。 


override def receiveWithLogging = | 
caseRegisteredWorker( masterUrl, masterWebUiUrl) => 


logInfo( " Successfully registered with master " 


+ masterUrl ) 

registered = true 

changeMaster( masterUrl, masterWebUiUrl) 

context. system. scheduler. schedule (Omillis, HEARTBEAT_MILLIS millis, self, SendHeartbeat ) 
if (CLEANUP_ENABLED) | 


logInfo( s" Worker cleanup enabled; old application directories will be deleted in; $workDir" ) 
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context. system. scheduler. schedule( CLEANUP. INTERVAL MILLISmillis, 
CLEANUP INTERVAL MILLISmillis, self, WorkDirCleanup) 


case RegisterWorkerFailed ( message ) 


if ( ! registered) | 


logError( " Worker registration failed ;" + message) 


System. exit( 1) 


| 


到 这 里 ， 我 们 的 Spark 集群 已 经 完全 开启 ， 下 面 就 是 介绍 如 何 使 用 Spark Sumit 工具 来 回 
集群 提交 我 们 自己 编写 的 Spark 应 用 程序 了 (在 提交 应 用 的 过 程 我 们 重点 讲述 的 是 Spark 应 
用 程序 中 的 作业 调度 )。 

(3) 在 Spark 中 我 们 向 集群 中 提交 作业 用 的 Spark Sumit 工具 ， 它 的 具体 实现 在 Spark 的 
bin 目录 下 的 spark - submit shell 脚本 文件 中 。 

1) 首先 我 们 进入 Spark 的 bin 目录， 然后 用 ls 命令 列 出 当前 目录 下 的 所 有 可 执行 文件 。 


root@SparkMaster:~# cd /usr/local/spark/spark-1.1.0-bin-hadoop2.4/bin 
root@SparkMaster: /usr/Local/spark/spark-1.1.0-bin-hadoop2.4/bin# ls 


beeline load-spark-env.sh pyspark.cmd run-example.cmd spark-class.cmd spark-sql utils.sh 
compute-classpath.cmd pyspark run-example spark-class spark-shell spark-submit 
compute-classpath.sh  pyspark2.cmd run-example2.cmd spark-class2.cmd spark-shell.cmd spark-submit.cmd 


root@SparkMaster: /usr/Local/spark/spark-1.1.0-bin-hadoop2.4/bin# vim spark-submitl 


2) 我 们 用 vim 命令 打开 spark - submit 脚本 文件 ， 里 面 的 内 容 如 下 : 


if [ "$1" = "--deploy-mode" ]; then 
SPARK SUBMIT DEPLOY MODE-$2 


elif [ "S1" - "--properties-file" ]; then 
SPARK SUBMIT PROPERTIES FILE-$2 

elif [ "$1" = "--driver-memory" ]; then 
export SPARK SUBMIT DRIVER MEMORY-$2 

elif [ "$1" = "--driver-library-path" ]; then 
export SPARK_SUBMIT_LIBRARY_PATH=S2 

elif [ "$1" = "--driver-class-path" ]; then 
export SPARK_SUBMIT_CLASSPATH=$2 

elif [ "$1" = "--driver-java-options" ]; then 
export SPARK SUBMIT OPTS-$2 


DEFAULT PROPERTIES FILE-"SSPARK HOME/conf/spark-defaults.conf" 
export SPARK SUBMIT DEPLOY MODE-S([SPARK SUBMIT DEPLOY MODE:-"client"] 
export SPARK SUBMIT PROPERTIES FILE-S[SPARK SUBMIT PROPERTIES FILE:-"SDEFAULT PROPERTIES FILE") 


ii For client mode, the driver will be launched in the same JVM that Launches 
# Sparksubmit, so we may need to read the properties file for any extra class 
# paths, library paths, java options and memory early on. Otherwise, it will 
# be too late by the time the driver JVM has started. 


if [[ "SSPARK SUBMIT DEPLOY MODE" == "client" && -f "SSPARK SUBMIT PROPERTIES FILE" ]]; then 
i Parse the properties file only if the special configs exist 
contains special configs-S( 
grep -e "spark.driver.extra*\|spark.driver.memory" "SSPARK SUBMIT PROPERTIES FILE" | X 
grep -v "^[[:space:]]*£?" 


if [ -n "Scontains special configs" ]; then 
export SPARK SUBMIT BOOTSTRAP DRIVER-1 


us spark-submit 脚 本 要 执行 的 类 
t 


exec SSPARK HOME/bin/spark-class org.apache.spark.deploy.Sparksubmit "S{ORIG_ARGS[@]}" 
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在 上 面 展 示 的 spark - submit 脚本 文件 的 最 后 一 行 我 们 可 以 看 到 ， 在 提交 任务 时 实际 执 
行 的 是 org. apache. spark. deploy. SparkSubmit 类 ( 当然 这 里 需要 注意 的 是 SparkSubmit 其 实 是 
一 个 对 象 ， 因 为 在 Scala 语言 中 ，main 方法 只 能 放 在 对 象 里 ) 。 既 然 这 样 ， 我 们 就 需要 看 一 
下 SparkSubmit 对 象 的 具体 实现 。 

3) 在 SparkSubmit 对 象 中 会 先 初始 化 相关 成 员 变 量 ， 比 如 Cluster managers (集群 资源 
EAr) 和 Deploy modes (部 署 模 式 ) 。 当 然 在 SparkSubmit 对 象 中 最 重要 的 就 是 main 方法 
里 对 SparkSubmitArguments 类 初始 化 ， 以 及 createLaunchEnv 方法 和 launch 方法 的 调用 。 
SparkSubmitArguments 类 的 初始 化 是 对 SparkSubmit 脚本 提交 任务 时 之 的 附加 参数 进行 解析 并 
把 解析 后 的 结果 赋值 给 SparkSubmitArguments 的 成 员 变 量 。createLaunchEnv 方法 通过 传 给 它 
的 SparkSubmitArguments 对 象 实例 ， 创 建 Launch 环境 (提交 作业 的 Spark 环境 ) 。 在 这 里 我 
们 使 用 的 Standalone 运行 模式 下 的 Cluster 部署 模 式 ， 所 以 launch 方法 用 来 启动 Client 伴生 对 
象 的 main 方法 。 


/ kk 


* Main gateway of launching a Spark application. 
* 
* This program handles setting up the classpath with relevant Spark dependencies and provides 
* a layer over the different cluster managers and deploy modes that Spark supports. 
* / 
objectSparkSubmit | 


// Cluster managers 

private val YARN =1 

private val STANDALONE =2 

private val MESOS z4 

private val LOCAL = 8 

private val ALL. CLUSTER, MGRS = YARN | STANDALONE | MESOS | LOCAL 


// Deploy modes 
private val CLIENT =1 
private val CLUSTER =2 
private val ALL DEPLOY, MODES = CLIENT | CLUSTER 
def main( args; Array | String] ) | 
// SparkSubmitArguments 类 对 SparkSubmit 脚本 的 附加 参数 进行 解析 并 赋值 
valappArgs = new SparkSubmitArguments( args ) 
if (appArgs. verbose) | 
printStream. println ( appArgs ) 
| 
// 创 建 Launch 环境 。 在 createLaunchEnv( ) 方 法 里 ,我 们 选择 的 是 Standalone 运行 模式 下 的 
//Cluster 部 署 模式 
val ( childArgs, classpath, sysProps, mainClass) = createLaunchEnv( appArgs ) 
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// 启 动 Client 伴生 对 象 的 main 方法 
launch( childArgs, classpath, sysProps, mainClass, appArgs. verbose ) 


PRK C 


* @ return atuple containing 


* (1) the arguments for the child process, 

* (2) a list of classpath entries for the child, 

* (3) a list of system properties andenv vars, and 
* (4) the main class for the child 

* / 


private[ spark | defereateLaunchEnv ( args ; SparkSubmitArguments ) 
: ( Array Buffer[ String] , ArrayBuffer[ String] , Map| String, String], String) = | 


// Values to return 

valchildArgs = new ArrayBuffer| String | ( ) 
valchildClasspath 2 new ArrayBuffer| String | ( ) 
valsysProps = new HashMap| String, String | ( ) 
varchildMainClass = " " 


// Set the cluster manager 
valclusterManager ; Int = args. master match | 
case m if m. startsWith(" yarn" ) => YARN 
case m if m. startsWith( " spark" ) => STANDALONE 
case m if m. startsWith( " mesos" ) => MESOS 
case m if m. startsWith( "local" ) => LOCAL 


case _ => printErrorAndExit( " Master must start with yarn, spark, mesos, or local"); -1 


// Set the deploy mode; default is client mode 
vardeployMode ; Int = args. deployMode match | 
case "client" | null => CLIENT 
case "cluster" => CLUSTER 


case _ => printErrorAndExit( " Deploy mode must be either client or cluster"); -1 


// In standalone - cluster mode, use Client as a wrapper around the user class 

if (clusterManager == STANDALONE && deployMode == CLUSTER) | 

/由 于 我 们 选择 的 是 Standalone 运行 模式 下 的 Cluster 部 署 模式 ,对 应 要 初始 化 的 类 就 
是 org. apache. spark. deploy. Client 伴生 对 象 
childMainClass = " org. apache. spark. deploy. Client" 
if (args. supervise) | 


childArgs += " —- supervise" 
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| 
childArgs += "launch" 


childArgs += (args. master, args. primaryResource, args. mainClass) 
if (args. childArgs ! = null) | 
childArgs ++= args. childArgs 


| 


4) 这 里 我 们 结合 SparkSubmit 内 部 的 launch 方法 来 分 析 一 下 它 是 如 何 局 动 Client 类 的 
main 方法 。 在 此 强调 一 下 : 因为 我 们 选用 的 Standalone 运行 模式 下 的 Cluster 部 署 模式 ， 在 
SparkSubmit 的 launch 方法 里 会 通过 反射 调用 org. apace. spark. deploy. yarn. Client 伴生 对 象 。 
具体 实现 如 下 : 


private def launch( 
childArgs: ArrayBuffer| String | , 
childClasspath ; Array Buffer| String | , 
sysProps : Map| String, String | , 
childMainClass : String, 
verbose : Boolean = false) | 


try | // ii Java 的 反射 机 制 调 用 org. apache. spark. deploy. Client 伴生 对 象 
mainClass = Class. forName( childMainClass, true, loader) 
| catch | 
case e; ClassNotFoundException 2» 
e. printStackTrace ( printStream ) 
if ( childMainClass. contains ( " thriftserver" ) ) | 
printIn( s" Failed to load main class $childMainClass. " ) 
printIn( " You need to build Spark with — Phive and — Phive - thriftserver. " ) 


| 
System. exit( CLASS NOT FOUND. EXIT STATUS) 


valmainMethod = mainClass. getMethod( " main" , new Array| String | (0). getClass ) 
if ( ! Modifier. isStatic ( mainMethod. getModifiers) ) | 

throw new IllegalStateException( " The main method in the given main class must be static" ) 
| 
try | /调用 Client 伴生 对 象 的 main( ) 方 法 

mainMethod. invoke( null, childArgs. toArray) 
| catch | 

case e:InvocationTargetException => e. getCause match | 

case cause: Throwable => throw cause 


case null 2» throw e 
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(4) 通过 以 上 的 launch 方法 ， 最 后 直接 执行 了 Client 伴生 对 象 的 main( ) 方 法 ， 在 main( ) 
ms - 件 事 ， 就 是 启动 Client 类 (th athe A Ym) 的 Actor ClientActor, ClientActor 
类 主要 负责 Client 结 点 和 Master 结 点 的 通信 ， 比 如 ClientActor 可 以 向 Master 发 送 注册 Driver 的 
iH E. 

1) Æ Client 的 main 创建 ClientActor 对 象 。 在 Spark 中 各 个 模块 (比如 Client, Master 和 
Worker 结 点 ) 之 间 的 通信 采用 的 是 Akka 3B fri ， 而 在 Spark 中 使 用 AkkaUtils 工具 类 对 
Akka 进行 了 封装 ， 这 样 做 的 好 处 在 创建 负责 通信 的 模块 〈 比 如 ClientActor 类 ) 的 时 候 不 需 
要 关注 Akka 本 身 的 很 多 实现 细节 。 对 于 Akka 的 介绍 ， 我 们 会 在 第 5 EYF Spark 的 运行 机 制 
时 再 分 析 。 下 面 的 Spark 源 代 人 码 中 就 是 创建 负责 消息 通信 的 ClientActor 对 象 。 


/ kk 


* Executable utility for starting and terminating drivers inside of a standalone cluster. 
*/ 
object Client | 
def main( args; Array| String] ) | 
if ( ! sys. props. contains( " SPARK, SUBMIT") ) | 
println( " WARNING: This client is deprecated and will be removed in a future version of Spark" ) 
printIn ( " Use . /bin/spark — submit with V' —— master spark ;// host ; port V' " ) 


| 


val conf = newSparkConf( ) 


valdriverArgs 2 new ClientArguments( args ) 


if ( ! driverArgs. logLevel. isGreaterOrEqual( Level. WARN) ) | 
conf. set( " spark. akka. logLifecycleEvents" , " true" ) 


| 


conf. set( " spark. akka. askTimeout" , "10" ) 
conf. set( " akka. loglevel" , driverArgs. logLevel. toString. replace( " WARN" , "WARNING" ) ) 
Logger. getRootLogger. setLevel ( driverArgs. logLevel ) 


val (actorSystem, _) = AkkaUtils. createActorSystem( 
" driverClient" , Utils. ee ), 0, conf, new SecurityManager( conf) ) 


// 1 Client 伴生 对 象 中 通过 Akka 通信 框架 启动 ClientActor 类 并 向 他 发 送 消 息 
actorSystem. actorOf( Props( classOf[ ClientActor | driverArgs, conf) ) 


actorSystem. awaitTermination( ) 


| 


2) 在 ClientActor 类 中 向 Master 注册 Driver。 这 时 在 ClientActor 类 主要 做 了 三 件 事 : 第 
一 是 根据 ClientActor 类 初始 化 时 传递 进来 的 参数 driverArgs 来 获得 当前 正在 运行 的 Master 2 


p 
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点 的 引用 ，ClientActor 通过 Master 结 点 的 引用 向 Master 发 送 消 息 ; 第 二 是 也 是 通过 参数 driv- 
erArgs 并 结合 Scala 语言 的 模式 匹配 来 生成 DriverDescription 对 和 象 ，DriverDescription 对 象 中 封 
装 了 要 向 Master 结 点 中 的 Driver 的 所 有 信息 ; 第 三 是 通过 Akka 通信 框架 向 Master 发 送 Re- 
questSubmitDriver 消息 。 


private class ClientActor( driverArgs: ClientArguments , conf; SparkConf) 
extends Actor withActorLogReceive with Logging | 


varmasterActor: ActorSelection = _ 


val timeout = AkkaUtils. askTimeout( conf) 


override defpreStart( ) = | 
// 绑 得 Master 结 点 的 引用 ,通过 这 个 引用 ClientActor [8] Master 发 送 消息 


masterActor = context. actorSelection ( Master. toAkkaUrl( driverArgs. master ) ) 


context. system. eventStream. subscribe( self, classOf[ RemotingLifecycleEvent | ) 


println( s" Sending. $ | driverArgs. cmd} command to $ | driverArgs. master] " ) 


driverArgs. cmd match | 
case "launch" z» 
// TODO: We could add anenv variable here and intercept it in 'sc. addJar'that would 
// truncate filesystem paths similar to what YARN does. For now, we just require 
// people call 'addJar' assuming the jar is in the same directory. 


valmainClass = " org. apache. spark. deploy. worker. DriverWrapper" 


valclassPathConf = " spark. driver. extraClassPath" 
valclassPathEntries = sys. props. get( classPathConf). toSeq. flatMap | cp => 
cp. split( java. io. File. pathSeparator) 


vallibraryPathConf =" spark. driver. extraLibraryPath" 
vallibraryPathEntries = sys. props. get( libraryPathConf). toSeq. flatMap | cp => 
cp. split( java. io. File. pathSeparator) 


valextraJavaOptsConf = " spark. driver. extraJavaOptions" 
valextraJavaOpts = sys. props. get( extraJavaOptsConf) 
. map( Utils. splitCommandString) . getOrElse( Seq. empty ) 
valsparkJavaOpts = Utils. sparkJavaOpts ( conf) 
valjavaOpts = sparkJavaOpts ++ extraJavaOpts 
val command = new Command( mainClass, Seq(" | | WORKER, URL | | " , driverArgs. 


mainClass) ++ 
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driverArgs. driverOptions, sys. env, classPathEntries, libraryPathEntries, ，javaOpts ) 


val driverDescription 2 new DriverDescription( 
driverArgs. jarUrl, 
driverArgs. memory , 
driverArgs. cores , 
driverArgs. supervise , 
command ) 
// 使 用 AKKA 通信 框架 向 Master 发 送 提交 Driver 的 消息 


masterActor ! RequestSubmitDriver( driverDescription ) 
case "kill" => 


val driverld = driverArgs. driverld 
masterActor | RequestKillDriver( driverld ) 


(5) 在 Master 215 AY receiveWithLogging 方法 中 ， 对 接受 到 的 消息 会 结合 Scala 语言 的 模 
式 匹 配 进行 匹配 ， 然 后 进行 处 理 。 

1) 在 这 里 Master 结 点 收 到 了 ClientActor 类 发 送 过 来 的 RequestSubmitDriver 消息 ， 经 过 
匹配 判断 后 ， 它 会 先 判断 当前 的 Master 结 点 是 否 处 于 活动 状态 ( RecoveryState. ALIVE) ， 如 
果 当 前 的 Master 处 于 活动 状态 ， 那 么 它 会 移 调用 createDriver 方法 初始 化 Driver 的 描述 信息 ， 
然后 添加 Driver 的 信息 到 Master 的 waitingDrivers 中 (waitingDrivers 是 一 个 ArrayBuffer) ， 最 
关键 的 是 最 后 对 schedule 方法 的 调用 ， 在 schedule 方法 中 ,会 根据 在 Master 结 点 注册 的 
Worker 结 点 的 资源 情况 来 进行 调度 。 而 我 们 这 里 的 Driver 的 启动 就 是 在 schedule 方法 里 
实现 的 。 


override def receiveWithLogging = | 
// Master 结 点 收 到 ClientActor 发 送 过 来 的 RequestSubmitDriver 消息 
caseRequestSubmitDriver( description) => | 
if (state ! = RecoveryState. ALIVE) | 
val msg = s" Can only accept driver submissions in ALIVE state. Current state; $state. " 
sender ! SubmitDriverResponse( false, None, msg) 
| else | 
logInfo( " Driver submitted " + description. command. mainClass ) 
val driver = createDriver( description ) // 初 始 化 Driver 的 描述 信息 
persistenceEngine. addDriver( driver) 
waitingDrivers += driver 
drivers. add( driver) /添加 driver 的 信息 到 Master 的 一 个 HashSet 成 员 变 量 中 
schedule( ) // schedule( ) 方 法 里 会 有 有 具体 的 处 理 过 程 


a 
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// TODO:It might be good to instead have the submission client poll the master to 


// determine the current status of the driver. For now it's simply " fire and forget". 


sender ! SubmitDriverResponse( true, Some( driver. id) , 


s" Driver successfully submitted as $ | driver. id | " ) 


2) 下 面 我 们 来 看 Master 类 的 schedule 方法 ， 在 schedule 方法 中 ， 首 先 会 在 Master 结 点 
注册 的 所 有 Worker 结 点 中 随机 选取 一 些 来 启动 Driver， 接 着 会 从 Master 的 成 员 变 量 waiting- 
Drivers 中 提取 出 等 待 启动 的 Driver， 然 后 调用 Master 的 launchDriver 方法 在 对 应 的 Worker 结 
点 启动 Driver, 


private def schedule( ) | 
if (state ! = RecoveryState. ALIVE) | return | 


// First schedule drivers, they take strict precedence over applications 

// Randomization helps balance drivers 

val shuffledAliveWorkers = Random. shuffle ( workers. toSeq. filter( . state == 
WorkerState. ALIVE) ) 

valnumWorkersAlive = shuffledAliveWorkers. size 


varcurPos =0 


for (driver <— waitingDrivers. toList) | // iterate over a copy of waitingDrivers 
// We assign workers to each waiting driver in a round - robin fashion. For each driver, we 
// start from the last worker that was assigned a driver, and continue onwards until we 
//have explored all alive workers. 
var launched = false 
varnumWorkers Visited = 0 
while ( numWorkersVisited < numWorkersAlive && ! launched) | 
val worker = shuffledAliveWorkers ( curPos ) 
numWorkersVisited += 1 
if (worker. memoryFree >= driver. desc. mem && worker. coresFree >= driver. desc. cores ) 
| 
launchDriver( worker, driver) /在 Worker 结 点 上 局 动 Driver 
waitingDrivers -= driver 
launched = true 


| 


curPos = ( curPos +1) % numWorkersAlive 
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| 


3) 我 们 接着 跟踪 Master 类 的 launchDriver 方法 的 源 代码 ， 在 Master 的 launchDriver 方法 
中 ， 会 发 送 LaunchDriver 消息 给 Worker 结 点 (这 里 的 worker. actor 就 是 Worker 类 的 引用 ) 。 


def launchDriver( worker: WorkerInfo, driver: DriverInfo) | 


" " 


logInfo( " Launching driver " + driver. id +" on worker " + worker. id) 
worker. addDriver( driver) 

driver. worker = Some( worker ) 

worker. actor ! LaunchDriver( driver. id, driver. desc ) 


driver. state = DriverState. RUNNING 
| 


(6) Worker 结 点 的 receiveWithLogging 方法 接收 到 Master 结 点 发 送 过 来 的 LaunchDriver 
消息 后 ， 首 先 会 做 两 件 事 : 第 一 是 实例 化 一 个 DriverRunner，DriverRunner 对 象 负责 管理 
Driver 的 执行 。 第 二 是 Driver JA oa Zin] Master 结 点 发 送 RegisterApplication 消息 (注册 
Spark 应 用 ) 。 

1) receiveWithLogging 方法 收 到 的 消息 匹配 LaunchDriver (driverld, driverDesc) 样 例 类 
后 先 实例 化 DriverRunner 对 象 ， 需 要 被 启动 的 Driver 的 信息 (driverld, driverDesc) 作为 参数 
传递 给 DriverRunner 对 象 。 接 下 来 DriverRunner 调用 自己 的 start 方法 ， 在 start 方法 内 部 会 开 
局 一 个 线程 来 运行 和 管理 Driver。 此 时 Driver 会 初始 化 SparkContext, DAGScheduler, Task- 
Scheduler 等 。 


case LaunchDriver( driverld, driverDesc) => | 
logInfo( s" Asked to launch driver $driverld" ) 
val driver 2 newDriverRunner ( conf, driverld, workDir, sparkHome, driverDesc, self, akkaUrl) 
// 初 始 化 DriverRunner ,并 在 其 内 部 开启 一 个 线程 来 管理 Driver 
drivers( driverld) = driver 


driver. start( ) 


coresUsed += driverDesc. cores 


memoryUsed += driverDesc. mem 


| 


(7) Driver 启动 后 会 问 Master 发 送 RegisterApplication 消息 来 申请 注册 Spark MJH, Mas- 
ter 类 的 receiveWithLogging 方法 收 到 该 消息 后 主要 做 三 件 事 : 第 一 是 调用 registerApplication 
注册 该 Spark 应 用 ; 第 二 是 发 送 RegisteredApplication 消息 给 Driver; 第 三 是 调用 schedule( ) 
方法 来 启动 Driver 请 求 的 Executor 资源 。 

1) 下 面 是 Master 的 eceiveWithLogging 方法 接受 到 RegisterApplication 消息 后 进行 的 一 系 
列 处 理 。 


case RegisterApplication( description) => | 
if (state == RecoveryState. STANDBY) | 
// ignore, don't send response 


| else | 
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logInfo( " Registering app " + description. name) 
val app = createApplication( description, sender) 
registerA pplication( app) 


logInfo( " Registered app " + description. name +" with ID " + app. id) 
persistenceEngine. addApplication( app ) 
sender | RegisteredApplication( app. id , masterUrl ) 


schedule( ) 


| 


2) 这 时 我 们 继续 跟踪 schedule( ) 方 法 的 实现 ， 在 schedule( ) 方 法 中 根据 Master 结 点 中 
注册 的 Worker 结 点 的 资源 情况 来 调用 Master 的 launchExecutor( ) 方 法 ， 在 launchExecutor( ) 
方法 里 会 向 Worker 发 送 LaunchExecutor 消息 来 启动 Executor。 


def launchExecutor( worker; WorkerInfo, exec;Executorlnfo) | 


logInfo( " Launching executor " + exec. fullld +" on worker " + worker. id) 
worker. addExecutor( exec ) 
worker. actor | LaunchExecutor( masterUrl , 
exec. application. id, exec. id, exec. application. desc, exec. cores, exec. memory ) 
exec. application. driver ! ExecutorAdded( 


exec. id, worker. id, worker. hostPort, exec. cores, exec. memory ) 


| 
(8) Worker 根据 Master 的 资源 分 配 结果 来 创建 Executor。 
1) Æ Worker 类 的 receiveWithLogging 方法 收 到 LaunchExecutor 消息 后 ， 会 实例 化 一 个 


ExecutorRunner 对 象 ， 并 且 会 调用 该 对 象 的 start 方法 。FExecutorRunner 对 象 负责 管理 Coar- 
seGrainedExecutorBackend 进程 的 运行 。 


case LaunchExecutor( masterUrl, appld, execId, appDesc, cores , memory ) => 
if ( masterUrl ! = activeMasterUrl) | 
logWarning( " Invalid Master (" + masterUrl +" ) attempted to launch executor. " ) 
| else | 
try | 
logInfo( " Asked to launch executor %s/% d for 96s" . format( appld, execld, appDesc. name) ) 


// Create the executor's working directory 
valexecutorDir = new File( workDir, appld + "/" + execld) 
if ( ! executorDir. mkdirs( ) ) | 


throw newIOException( " Failed to create directory " + executorDir) 


| 
// 实 例 化 ExecutorRunner 对 象 
val manager = newExecutorRunner( appld, execld, appDesc, cores , memory. , 
self, workerld, host, sparkHome, executorDir, akkaUrl, conf, ExecutorState. LOADING) 


executors( appld  " /" + execld) = manager 
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manager. start( ) ”// 调 用 ExecutorRunner 对 象 的 start 方法 
coresUsed += cores 
memoryUsed += memory_ 
master | ExecutorStateChanged( appld, execld, manager. state, None, None) 
| catch | C 
case e; Exception => | 
logError( s" Failed to launch executor $appld/ $execld for $ | appDesc. name}. " , e) 
if (executors. contains( appld + "/" +execld) ) | 
executors( appld + " /" + execld). kill( ) 
executors -= appld +"/" + execld 
| 
master ! ExecutorStateChanged( appld, execld, ExecutorState. FAILED, 
Some( e. toString) , None) 


| 


2) 在 ExecutorRunner 的 start( ) 方 法 中 ,会 开启 一 个 线程 ， 在 这 个 线程 中 会 调用 fetchAn- 
dRunExecutor( ) 方 法 ， 该 方法 负责 从 Driver 上 下 载 并 运行 准备 好 的 ApplicationDescription。 


def start( ) | 

workerThread = new Thread( " ExecutorRunner for " + fullld) | 
override def run( ) |fetchAndRunExecutor( ) | 

| 

workerThread. start( ) 

// Shutdown hook that kills actors on shutdown. 

shutdownHook = new Thread( ) | 
override def run( ) | 


killProcess ( Some ( " Worker shutting down" ) ) 


| 


Runtime. getRuntime. addShutdownHook ( shutdownHook ) 


| 


3) 接 下 来 在 fetchAndRunExecutor ( ) 方法 中 会 启动 ApplicationDescription 中 携带 的 
org. apache. spark. executor. CoarseGrainedExecutorBackend 类 。 其 中 CommandUtils 类 的 buildPro- 


cessBuilder( ) 方 法 中 的 参数 appDesc 指 的 就 是 ApplicationDescription 。 


def fetchAndRunExecutor( ) | 
try | 
// Launch the process 
val builder = CommandUtils. buildProcessBuilder( appDesc. command, memory , 
sparkHome. getAbsolutePath, substitute Variables ) 
val command = builder. command ( ) 


logInfo( " Launch command ;" + command. mkString("\"", "Vr rm, nnm)» 


p 
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builder. directory ( executorDir) 


1 


// In case we are running this from within the Spark Shell, avoid creating a " scala" 


// parent process for the executor command 

builder. environment. put( " SPARK LAUNCH, WITH, SCALA" , "0") 
process = builder. start( ) 

val header = "Spark Executor Command: 96 s\n% s\n\n". format ( 


command. mkString ( " \" " : " \" \" " ] " \" " ) ; n = " * 40) 


// Redirect its stdout andstderr to files 
val stdout = new File( executorDir, "stdout" ) 


stdoutAppender = FileAppender( process. getInputStream , stdout, conf) 


valstderr 2 new File( executorDir, " stderr" ) 
Files. write( header stderr, UTF_8 ) 
stderrAppender = FileAppender( process. getErrorStream, stderr, conf) 


// Wait for it to exit; executor may exit with code 0 ( when driver instructs it to shutdown) 
// or with nonzero exit code 

valexitCode = process. waitFor( ) 

state = ExecutorState. EXITED 

val message = "Command exited with code " + exitCode 


worker | ExecutorStateChanged( appld, execld, state, Some( message) , Some( exitCode) ) 


4) CoarseGrainedExecutorBackend 启动 后 ， 会 向 Driver 端的 CoarseGrainedSchedulerBack- 
end 中 的 DriverActor 发 送 RegisterExecutor (executorld, hostPort, cores) 消息 ，DriverActor 会 
回复 RegisteredExecutor 消息 ， 此 时 CoarseGrainedExecutorBackend 的 receiveWithLogging 方法 
收 到 消息 后 会 创建 一 个 org. apache. spark. executor. Executor 对 象 。 


override defreceiveWithLogging = | 
caseRegisteredExecutor => 
logInfo( " Successfully registered with driver" ) 
val (hostname, _) = Utils. parseHostPort( hostPort ) 
executor = new Executor( executorld, hostname, sparkProperties, cores, isLocal = false, 


actorSystem ) 


ZJE, Executor 创建 完毕 。Executor 创建 完毕 后 ，Driver 就 可 以 向 Spark 的 Worker 结 点 
提交 作业 了 ， 下 面 我 们 开始 分 析 Driver 是 如 何 一 步 步 把 作业 划分 成 任务 并 提交 给 Worker 上 
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的 Executor 进行 执行 。 
(9) 对 于 我 们 编写 的 Spark 应 用 程序 ， 它 向 集群 提交 的 唯一 入口 就 是 SparkContext 类 ， 
而 Spark 应 用 里 的 每 一 个 作业 只 有 等 到 有 Action 操作 的 时 候 才 会 真正 地 疝 集群 提交 作业 。 比 
如 se. textFile( " README. md"). count( ) 这 段 代码 〈 这 是 一 个 常见 的 统计 加 入 到 内 存 的 文件 他) 
有 多 少 行 的 例子 ) ， 其 中 se 表示 的 是 SparkContext 的 实例 化 对 象 ， 在 这 段 代码 中 RDD 的 
count() 方法 是 一 个 Action 操作 ， 它 会 触发 Spark 作业 的 提交 。 
1) 我 们 看 一 下 Spark 1. 2 源码 中 的 count( ) 方 法 的 实现 ， 可 以 发 现 它 会 调用 SparkContext 
的 runJob ( ) 方 法 来 向 Worker 结 点 提交 作业 ， 这 里 的 runJob ( ) 方 法 最 终 会 返回 一 个 单机 数组 ， 
该 数组 调用 sum 方法 完成 单词 计数 。 
/ kk 
* Return the number of elements in the RDD. 
* / 
def count( ) : Long = sc. runJob( this, Utils. getlteratorSize _). sum 


2) 接 下 来 我 们 就 需要 看 一 下 SparkContext 类 中 的 runJob( ) 方 法 的 实现 。 在 SparkContext 
类 中 对 runJob( ) 方 法 实现 了 一 系列 的 重 载 ， 在 我 们 上 面 使 用 se. runJob ( ) 方 法 提交 作业 的 过 
程 中 ， 它 会 连续 调用 自己 重 载 过 的 方法 ， 每 个 runJob ( ) 方 法 调用 的 自己 的 重 载 方法 都 会 通 
过 在 参数 列表 增加 参数 来 实现 功能 的 添加 ， 最 终 调用 的 下 面 的 SparkContext 的 runJob( ) 方 
法 。 例 如 在 该 runJob ( ) 方法 中 , 参数 allowLocal 表示 是 否 允 许 作 业 在 本 地 运行 ， 参 数 re- 
sultHandler 是 一 个 匿名 函数 ， 它 是 一 个 对 最 终 的 计算 结果 进行 处 理 的 句柄 。 
def runJob[T，U:ClassTag] ( 
rdd; RDD[ T], 
func; ( TaskContext, Iterator) T]) => U, 


partitions ; Seq| Int ] , 
allowLocal ; Boolean, 
resultHandler; (Int, U) => Unit) | 
if (dagScheduler == null) | 
throw newSparkException( " SparkContext has been shutdown" ) 
| 
valcallSite = getCallSite 
valcleanedFunc = clean( func ) 
logInfo( " Starting job:" + callSite. shortForm ) 
// TE SparkContext 中 调用 DAGScheduler 的 runJob 方法 提交 作业 
dagScheduler. runJob( rdd, cleanedFunc, partitions, callSite, allowLocal, 
resultHandler, localProperties. get ) 
progressBar. foreach(_. finishAll( ) ) 
/每 次 作业 执行 完成 后 ,RDD 会 重新 调用 doCheckpoint( ) 方 法 来 判断 是 否 要 进行 checkpoint 
// 操 作 , 对 于 checkpoint 操作 的 详细 分 析 ,我 们 会 在 Spark 的 运行 机 制 中 讲解 
rdd. doCheckpoint( ) 
| 


在 以 上 的 runJob 方法 中 ， 最 关键 的 一 段 代码 就 是 dagScheduler runJob(...... ) ， 因 为 对 
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于 问 Spark 集群 提交 的 作业 ， 首 先 要 经 过 DagScheduler 调度 天 对 其 进行 划分 Stage。 下 面 我 们 
进入 DagScheduler 类 的 源码 ， 看 一 下 它 的 具体 实现 。 

(10) 在 DagScheduler 类 中 会 对 要 提交 的 作业 进行 划分 Stage， 并 决定 各 个 Stage 之 间 的 
依赖 关系 并 以 TaskSet 的 方式 向 TaskScheduler 调度 需 进 行 Stage 的 提交 ， 其 中 TaskSet 是 对 
Stage 的 封装 ， 每 一 个 TaskSet 对 应 一 个 Stage。 

1) 我 们 首先 看 一 下 DAGScheduler 的 runJob( ) 方 法 ， 在 该 方法 内 部 会 继续 调用 dag- 
Scheduler 的 submitJob( ) 方 法 ， 其 中 submitJob ( ) 方 法 会 返回 一 个 JobWaiter 类 的 对 象 waiter, 
这 里 的 waiter 会 处 于 一 个 阻塞 状态 ， 直 到 该 作业 执行 完毕 或 者 作业 被 消息 后 才 会 解除 阻塞 


状态 。 


def runJob| T, U:ClassTag | ( 
rdd; RDD[ T], 
func; ( TaskContext, Iterator) T]) => U, 
partitions ; Seq| Int ] , 
callSite ; CallSite , 
allowLocal : Boolean , 
resultHandler; (Int, U) => Unit, 


properties ; Properties = null) 


val start = System. nanoTime 
val waiter = submitJob(rdd, func, partitions, callSite, allowLocal, resultHandler, properties ) // 
提交 作业 
waiter. awaitResult( ) match | 
caseJobSucceeded => | 
logInfo( " Job 96 d finished: %s, took % fs". format 
(waiter. jobld, callSite. shortForm, (System. nanoTime - start) / 1e9) ) 


caseJobFailed( exception; Exception) => 
logInfo( " Job 96 d failed: %s, took % f s". format 
(waiter. jobId, callSite. shortForm, (System. nanoTime - start) / 1e9)) 


throw exception 


| 


2) 我 们 继续 跟踪 dagScheduler 的 submitJob( ) 方 法 。 在 submitJob( ) 方 法 中 主要 做 的 一 件 
事 是 ， 把 作业 相关 的 信息 封装 成 一 个 JobSubmitted 样 例 类 ， 然 后 会 发 送 JobSubmitted 消息 给 
自己 的 消息 处 理 器 dagSchedulerEventProcessActor 去 集中 处 理 。 

def submitJob| T, U]( 


rdd  RDD[ T] , 
func; ( TaskContext, Iterator, T]) => U, 


partitions ; Seq| Int], 
callSite ; CallSite , 
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allowLocal : Boolean , 
resultHandler:(Int, U) => Unit, 


properties ; Properties = null) :JobWaiter[ U] = 


// Check to make sure we are not launching a task on a partition that does not exist. 
valmaxPartitions = rdd. partitions. length 
partitions. find(p => p >=maxPartitions | | p <0). foreach | p => 
throw new IllegalArgumentException ( 
" Attempting to access a non — existent partition;" +p+". ”十 


"Total number of partitions;" + maxPartitions ) 


valjobld = nextJobld. getAndIncrement( ) 
if (partitions. size == 0) | 
return newJobWaiter| U | ( this, jobId, 0, resultHandler ) 


assert( partitions. size > 0) 
valfunc2 = func. asInstanceOf| ( TaskContext, Iterator|| ]) => _ | 
val waiter = newJobWaiter( this, jobId, partitions. size, resultHandler ) 
// dagScheduler 发 送 消 息 给 上 自己 的 Aio 也 就 是 
// dagSchedulerEventProcessActor) ,进行 消息 的 集中 处 理 
eventProcessActor ! JobSubmitted ( 
jobld, rdd, func2, partitions. toArray , allowLocal, callSite, waiter, properties) 


waiter 


| 


3) dagSchedulerEventProcessActor 的 receive 方法 收 到 JobSubmitted 消息 后 ， 会 继续 调用 
dagScheduler 自己 的 handleJobSubmitted ( ) 方 法 去 继续 处 理 作 业 的 提交 。 


def receive = | 
caseJobSubmitted( jobId, rdd, func, partitions, allowLocal, callSite, listener, properties) => 
dagScheduler. handleJobSubmitted( jobId , rdd, func, partitions, allowLocal, callSite, 
listener, properties ) 


4) 在 handleJobSubmitted( ) 方法 中 会 根据 传递 进来 的 参数 final RDD 来 创建 fnalStage。 
finalStage， 顾 名 思 义 ， 就 是 对 要 提交 的 作业 划分 Stage 后 ， 处 在 这 个 相互 依赖 的 Stage 链 的 最 
后 的 那个 Stage。 在 创建 好 finalStage 后 ， 会 首先 判断 该 finalStage 是 否 满足 本 地 模式 (Local) 
运行 的 条 件 ， 在 下 面 源 代 码 中 ， 如 果 变 量 shouldRunLocally 的 值 为 真 ， 则 会 调用 runLocally 
(job) 方法 在 Local 模式 下 运行 ， 否 则 会 调用 submitStage (finalStage) 方法 继续 提交 作业 。 


private| scheduler] def handleJobSubmitted ( jobld : Int , 


> 
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finalRDD:RDD[ |, 

func; (TaskContext, Tterator| _|) => _, 
partitions ; Array| Int ] , 

allowLocal ; Boolean , 

callSite : CallSite , 


listener : JobListener , 


properties ; Properties = null) 


var finalStage : Stage = null 

try | 
// New stage creation may throw an exception if, for example, jobs are run on a 
//HadoopRDD whose underlying HDFS files have been deleted. 
finalStage = newStage( finalRDD, partitions. size, None, jobld, callSite) 


catch | 

case e; Exception => 
logWarning( " Creating new stage failed due to exception — job:" +jobld, e) 
listener. jobFailed( e) 
return 

| 

if (finalStage ! = null) | 

val job = newActiveJob( jobld, finalStage, func, partitions, callSite, listener, properties) 

clearCacheLocs( ) 

logInfo( " Got job 96s (96s) with 96d output partitions ( allowLocal = 96 s)". format( 
job. jobId, callSite. shortForm, partitions. length, allowLocal) ) 

logInfo( " Final stage;" + finalStage +" (" + finalStage. name +" )" ) 


" 


logInfo( " Parents of final stage;" + finalStage. parents ) 


logInfo( " Missing parents;" + getMissingParentStages ( finalStage ) ) 
// Local 模式 运行 作业 的 四 个 条 件 :spark. localExecution. enabled 设置 为 true; 用 户 程序 显 式 
指定 可 以 本 地 运行 ;finalStage 的 没有 父 Stage ; 仅 有 一 个 partition 
val shouldRunLocally = 
localExecutionEnabled &&allowLocal && finalStage. parents. isEmpty && partitions. length == 1 
if (shouldRunLocally) | 
// Compute very short actions like first( ) or take( ) with no parent stages locally. 
listenerBus. post( SparkListenerJobStart( job. jobld, Seq. empty, properties ) ) 
runLocally ( job ) 
| else | 
jobIdToActiveJob( jobld) = job 
activeJobs += job 
finalStage. resultOfJob = Some ( job) 
val stagelds = jobIdToStagelds( jobId ). toArray 
val stageInfos = stagelds. flatMap(id => stageldToStage. get( id). map(_. latestInfo ) ) 
listenerBus. post( SparkListenerJobStart( job. jobld, stageInfos, properties) ) 
submitStage(finalStage)  // 提 区 Stage 
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| 


submitWaitingStages( ) 


| 


5) 在 submitStage( ) 方 法 中 ,会 根据 finalStage 的 依赖 getMissingParentStages 来 求 出 它 的 
所 有 父 Stage， 并 调用 List 集合 的 sortBy (... id) 方 法 按照 id 的 大 小 进行 排序 后 赋值 给 变量 
missing。 接 着 会 判断 变量 missing 是 否 为 Nil， 如 果 missing == Nil， 表 明 传 递 进来 的 Stage 没 
有 父 Stage ， 这 时 就 会 调用 submitMissingTasks (stage, jobld. get) 继续 向 集群 提交 Stage; 1f 
则 会 遍历 该 Stage 的 父 Stage ， 然 后 继续 回调 submitStage( ) 方 法 。 


/ ** Submits stage, but first recursively submits any missing parents. */ 
private defsubmitStage( stage:Stage) | 
val jobId = activeJobForStage( stage ) 
if (jobId. isDefined) | 
logDebug( " submitStage(" + stage +" )" ) 
if ( ! waitingStages( stage) && | runningStages(stage) && | failedStages(stage) ) | 
val missing = getMissingParentStages( stage). sortBy( . id) 


" + missing) 


logDebug( " missing: 
if (missing == Nil) | 
logInfo( " Submitting " + stage +" (" + stage. rdd +" ), which has no missing parents" ) 
submitMissingTasks( stage, jobId. get) 
| else | 
for (parent «- missing) | 
submitStage( parent)”// 提 交 任 务 


| 


waitingStages += stage 


| 


| else | 


" 


abortStage( stage, "No active job for stage " + stage. id) 


| 
6) 如 果 一 个 Stage 的 所 有 的 父 Stage 都 已 经 计算 完成 ， 那么 它 会 调用 dagScheduler 的 sub- 
mitMissingTasks( ) 方 法 来 提交 该 Stage 所 包含 的 Tasks。 在 submitMissingTasks( ) 方 法 中 主要 实现 
T Stage 是 如 何 生 成 TaskSet 的 ， 并 调用 TaskScheduler 的 submitTasks 方法 进行 TaskSet (一 系列 
Task) 的 提交 。 当 然 这 里 的 TaskScheduler 实际 上 是 它 的 实现 子 类 TaskSchedulerImpl。 


/ ** Called when stage's parents are available and we can now do its task. */ 
private def submitMissingTasks( stage:Stage, jobld;Int) | 

logDebug( " submitMissingTasks(" + stage +" )" ) 

// Get our pending tasks and remember them in ourpendingTasks entry 


stage. pendingTasks. clear( ) 


a 
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/ ** 得 到 RDD 中 需要 计算 的 partition ,对 于 Shuffle 类 型 的 stage, 需 要 判断 stage 中 是 否 缓存 了 该 
结果 ;对 于 Result 类 型 的 Final Stage, 则 判断 计算 Job 中 该 partition 是 否 已 经 计算 完成 。 */ 
val partitionsToCompute :SeqL Int | = | 
if (stage. isShuffleMap) | 
(0 until stage. numPartitions ). filter(id => stage. outputLocs(id) == Nil) 


| else | 
val job = stage. resultOfJob. get 
(0 until job. numPartitions). filter(id => ! job. finished( id) ) 


val properties = if ( jobIdToActiveJob. contains( jobId) ) | 
jobIdToActiveJob( stage. jobId). properties 

| else | 
// this stage will be assigned to " default" pool 


null 


runningStages += stage 

// SparkListenerStageSubmitted should be posted before testing whether tasks are 
//serializable. If tasks are not serializable, a SparkListenerStageCompleted event 
// will be posted, which should always come after a corresponding 

// SparkListenerStageSubmitted event. 

stage. latestInfo = StageInfo. fromStage( stage, Some( partitionsToCompute. size) ) 
listenerBus. post( SparkListenerStageSubmitted ( stage. latestInfo, properties ) ) 


var taskBinary ; Broadcast| Array| Byte] | = null 
try | 
// 序 列 化 ShuffleMapTask 类 型 和 ResultTask 类 型 的 Stage 
valtaskBinaryBytes: Array[ Byte | = 
if (stage. isShuffleMap) | 
closureSerializer. serialize( (stage. rdd, stage. shuffleDep. get) : AnyRef). array( ) 
| else | 
closureSerializer. serialize( (stage. rdd, stage. resultOfJob. get. func) : AnyRef). array( ) 
| 
//Executor 可 以 通过 广播 变量 得 到 序列 化 后 的 一 系列 Task 
taskBinary = sc. broadcast(taskBinaryBytes ) 
| catch | 
// In the case of a failure during serialization, abort the stage. 
case e; NotSerializableException => 


abortStage( stage, "Task not serializable;" + e. toString) 
runningStages —- stage 


return 
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case NonFatal(e) => 
abortStage( stage, s" Task serialization failed: $e\n $1 e. getStackTraceString | " ) 


runningStages —- stage 


return > 
| 


// 对 于 Shuffle 类 型 依赖 的 Stage ,生成 一 系列 ShuffleMapTask 类 型 的 Task; 对 于 Result 类 型 的 Stage, 
生成 一 系列 ResultTask 类 型 的 Task 
val tasks:Seq{ Task[ _] ] = if (stage. isShuffleMap) | 
partitionsToCompute. map | id => 
vallocs = getPreferredLocs( stage. rdd, id) 
val part = stage. rdd. partitions (id) 
newShuffleMapTask( stage. id, taskBinary, part, locs) 
| 
| else | 
val job = stage. resultOfJob. get 
partitionsToCompute. map | id => 
val p:Int = job. partitions( id) 
val part = stage. rdd. partitions( p) 
vallocs = getPreferredLocs( stage. rdd, p) 
newResultTask (stage. id, taskBinary, part, locs, id) 


if (tasks. size >0) | 
//Preemptively serialize a task to make sure it can be serialized. We are catching this 
// exception here because it would be fairly hard to catch the non - serializable exception 
// down the road, where we have several different implementations for local scheduler and 
// cluster schedulers. 
// We've already serializedRDDs and closures in taskBinary, but here we check for all 
// other objects such as Partition. 
try | // BU Tasks AY Task 都 是 可 以 序列 化 的 (一 个 Stage 中 包含 多 个 Task ) 
closureSerializer. serialize( tasks. head ) 
| catch | 
case e;NotSerializableException 2» 


abortStage( stage, " Task not serializable;" + e. toString) 
runningStages -= stage 
return 

case NonFatal(e) => // Other exceptions, such as IllegalArgumentException fromKryo. 
abortStage( stage, s" Task serialization failed; $e\n $e. getStackTraceString} " ) 
runningStages -= stage 


return 
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logInfo( " Submitting " + tasks. size +" missing tasks from " + stage +" (" +stage. rdd+")") 


stage. pendingTasks ++= tasks 


" 


logDebug( " New pending tasks:" + stage. pendingTasks ) 
// 通 过 TaskScheduler 提交 TaskSet 
taskScheduler. submitTasks( 
newTaskSet( tasks. toArray , stage. id, stage. newAttemptld( ) , stage. jobld, properties) ) 
stage. latestInfo. submissionTime = Some( clock. getTime( ) ) 
| else | 
// Because we posted SparkListenerStageSubmitted earlier, we should post 
// SparkListenerStageCompleted here in case there are no tasks to run. 
listenerBus. post( SparkListenerStageCompleted ( stage. latestInfo ) ) 
logDebug( " Stage " + stage +" is actually done; 96b 96d 96 d". format( 
stage. isAvailable, stage. numAvailableOutputs , stage. numPartitions ) ) 
runningStages —- stage 
| 
| 


(11) 在 以 上 的 submitMissingTasks( ) 方 法 中 ,被 提交 的 Stage 中 包含 的 一 系列 Task 被 封 
装 成 了 一 个 TaskSet， 并 通过 调用 TaskSchedulerImpl 的 submitTasks ( ) 7r 3: EZ: [n] Spark 集群 
提交 任务 ， 在 这 里 再 强调 一 下 ， 一 个 TaskSet 对 应 一 个 Stage。 下 面 我 们 进入 TaskScheduler 调 
度 絮 的 实现 子 类 TaskSchedulerlmpl 来 看 一 下 它 是 如 何 进 行 任 务 的 提交 的 。 

1) 我 们 继续 跟踪 TaskSchedulerlmpl 类 的 submitTasks( ) 方 法 ， 在 该 方法 中 首先 实例 化 了 
TaskSetManager , TaskSetManager 主要 对 TaskSet 中 的 需要 执行 的 任务 进行 管理 ; 然后 判断 任 
务 不 是 本 机 执行 和 非 hasReceivedTask ， 并 局 动 一 个 Timer X1 22 HJ scheduleAtFixedRate( ) 方 法 ， 
以 一 定 的 时 间 间 隔 提交 Task; 最 后 调用 backend 的 reviveOffers ) 进行 下 一 步 操 作 。 这 里 的 
backend 是 SparkDeploySchedulerBackend， 但 是 reviveOffers ( ) 方法 是 在 它 的 父 类 CoarseG- 
rainedSchedulerBackend 中 实现 的 。 


override def submitTasks(taskSet: TaskSet) | 
val tasks = taskSet. tasks 
logInfo( " Adding task set " + taskSet. id +" with " + tasks. length +" tasks" ) 
this. synchronized | 
val manager = newTaskSetManager( this, taskSet, maxTaskFailures ) 
activeTaskSets( taskSet. id) 2 manager 
schedulableBuilder. addTaskSetManager( manager, manager. taskSet. properties ) 


if (! isLocal && | hasReceivedTask) | 
starvationTimer. scheduleAtFixedRate( new TimerTask( ) | 
override def run( ) | 
if ( ! hasLaunchedTask ) | 
logWarning( " Initial job has not accepted any resources; " + 
"check your cluster UI to ensure that workers are registered " 十 


"and have sufficient memory" ) 
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| else | 


this. cancel ( ) 


| 
| , STARVATION_TIMEOUT, STARVATION_TIMEOUT) 


| 


hasReceivedTask = true 


| 
backend. reviveOffers( )”// 这 里 的 backend 是 SparkDeploySchedulerBackend。 


| 


2) 我 们 继续 跟踪 CoarseGrainedSchedulerBackend 类 中 的 reviveOffers( ) 方 法 ， 这 里 的 re- 
viveOffer( ) 75 1: x AS |n]. CoarseGrainedSchedulerBackend 中 的 DriverActor 类 发 送 消 息 进 行 
处 理 。 


override def reviveOffers( ) | 


driverActor ! ReviveOffers 


| 


3) 在 DriverActor 的 receiveWithLogeing 方法 中 ， 对 收 到 的 ReviveOffers 消息 会 继续 调用 
CoarseGrainedSchedulerBackend 的 makeOffers( ) 方 法 。 


def receiveWithLogging = | 
case ReviveOffers => 
makeOffers( ) 
| 


4) 在 makeOffers( ) 中 通过 调用 CoarseGrainedSchedulerBackend 的 launchTasks( ) 方 法 发 
送 消 息 给 CoarseGrainedExecutorBackend , 


// Make fake resource offers on all executors 
def makeOffers( ) | 
launchTasks( scheduler. resourceOffers ( executorDataMap. map | case (id, executorData) => 


new WorkerOffer( id, executorData. executorHost, executorData. freeCores ) 
|. toSeq) ) 
| 


5) 我 们 继续 跟踪 CoarseGrainedSchedulerBackend 的 launchTasks( ) 方 法 ， 在 该 方法 中 ， 
它 的 参数 tasks 是 通过 scheduler. resourceOffers ( ) 方法 进行 资源 申请 后 返回 来 的 一 系列 Task, 
最 终 ， 每 个 Task 会 被 循环 地 发 送 到 与 其 绑 定 的 Worker 结 点 的 已 经 启动 的 CoarseCrained- 
SchedulerBackend 进程 中 。 


// Launch tasks returned by a set of resource offers 
def launchTasks( tasks ; Seq[ Seq| TaskDescription | ] ) | 
for (task <— tasks. flatten) | 


val ser = SparkEnv. get. closureSerializer. newInstance( ) 
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valserializedTask = ser. serialize(task) /对 Task 进行 序列 化 
if ( serializedTask. limit >= akkaFrameSize - AkkaUtils. reservedSizeBytes) | 
valtaskSetId = scheduler. taskIdToTaskSetld( task. taskId ) 
scheduler. activeTaskSets. get(taskSetId). foreach | taskSet => 
try | 
var msg = "Serialized task %s:%d was 96 d bytes, which exceeds max allowed ; " 
+ "spark. akka. frameSize (96 d bytes) — reserved (96d bytes). Consider increasing " + 
" spark. akka. frameSize or using broadcast variables for large values. " 
msg = msg. format( task. taskId, task. index, serializedTask. limit, akkaFrameSize, 
AkkaUtils. reservedSizeBytes ) 
taskSet. abort( msg) 
| catch | 


case e; Exception => logError( " Exception in error callback" , e) 


| 
else | 
val executorData = executorDataMap( task. executorld ) 
executorData. freeCores -= scheduler. CPUS PER. TASK 
// 发 送 序 列 化 后 的 Task 的 消息 给 Worker 上 的 CoarseGrainedExecutorBackend 


executorData. executorActor ! LaunchTask ( new SerializableBuffer( serializedTask ) ) 


| 


至 此 ， 经 过 Driver 端的 DAGScheduler 调度 要 提交 的 作业 进行 Stage 划分 ， 以 及 Task- 
Scheduler 调 fX] Stage 进一步 划分 为 一 个 个 Task， 并 发 送 Task 到 Worker 结 点 的 CoarseG- 
rainedSchedulerBackend 进程 的 Executor 中 执行 ， 那 么 下面 我 们 就 要 进入 Worker 结 点 相关 的 
类 中 作 进 一 步 的 分 析 。 

(12) 我 们 接 下 来 会 通过 Worker 结 点 相关 的 CoarseGrainedExecutorBackend 类 Executor 
类 TaskRunner 类 的 源 公 实现 来 分 析 一 下 它们 是 如 何 处 理 从 Driver 端的 CoarseGrainedSchedul- 
erBackend 对 象 中 发 送 过 来 的 Task, 

1) 首先 ， 在 CoarseGrainedExecutorBackend 的 ipods 方法 接受 到 CoarseG- 
rainedSchedulerBackend 对 象 发 送 过 来 的 LaunchTask 信息 后 ， 会 调用 Executor 的 launchTask ( ) 
方法 让 Task 在 绑 定 的 Executor 上 运行 。 


override def receiveWithLogging = | 
case LaunchTask( data) => 
if (executor == null) | 
logError( " Received LaunchTask command but executor was null" ) 
System. exit( 1) 
| else | 


val ser = SparkEnv. get. closureSerializer. newInstance( ) 
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valtaskDesc = ser. deserialize| TaskDescription | ( data. value) 
logInfo( " Got assigned task " + taskDesc. taskId) 
// Executor 调用 自己 的 launchTask 方法 启动 任务 


executor. launchTask( this, taskDesc. taskId, taskDesc. name, taskDesc. serializedTask ) 


| 


2) 我 们 继续 跟 踊 Executor 的 launchTask ( J 在 这 个 方法 内 部 主要 做 了 两 件 事 情 : 
一 是 初始 化 了 一 个 TaskRunner 对 象 来 对 Task 进行 管理 ， 一 是 调用 threadPool. execute ( tr) Ex- 
ecutor 方法 把 TaskRunner 对 象 加 入 到 一 个 Java 的 线程 池 中 去 运行 。 


def launchTask( 
context; ExecutorBackend , taskId : Long, taskName:; String, serializedTask ; ByteBuffer) | 
// 初 始 化 TaskRunner 对 象 ,使 用 TaskRunner 对 Task 进行 管理 


val tr = newTaskRunner( context, taskId, taskName, serializedTask ) 


runningTasks. put( taskId, tr) 
threadPool. execute(tr) //}E TaskRunner 对 象 加 入 到 Java 的 线程 池 中 运行 
| 


3) 下 面 我 们 的 重心 就 是 TaskRunner 的 源码 实现 了 ， 看 它 是 如 何 管 理 Task 的 实际 运行 
的 。TaskRunner 是 一 个 Runnable 接口 ， 它 最 重要 的 实现 都 在 它 的 run( ) 方 法 中 ,在 run( ) 方 
法 中 首先 会 对 收 到 的 Task 信息 进行 反 序 列 化 ， 然 后 调用 task. run ( taskld. tolnt ) 方法 运行 
Task。 这 里 需要 注意 的 是 如 果 运 行 的 是 ShuffleMapTask， 会 将 结果 保存 到 本 地 文件 中 ,汇报 
ShuffleMapTask 的 存储 信息 给 Driver, 5f ResultTask 或 者 其 他 ShuffleMapTask 获取 ; 如 果 是 
ResultTask ， 它 会 根据 Driver 中 提供 的 信息 进行 结果 的 获取 和 并 进行 Reduce 操作 ， 最 后 执行 
结果 汇报 给 Driver, 


override def run( ) | 
val deserializeStartTime = System. currentTimeMillis( ) 
Thread. currentThread. setContextClassLoader( replClassLoader ) 
val ser = SparkEnv. get. closureSerializer. newInstance( ) 
logInfo(s" Running $taskName (TID $taskId)" ) 
execBackend. statusUpdate( taskId , TaskState. RUNNING, EMPTY BYTE BUFFER) 
vartaskStart ; Long = 0 
def gcTime = 
ManagementFactory. getGarbageCollectorMXBeans. map(_. getCollectionTime ). sum 
val startGCTime = gcTime 


try | 
Accumulators. clear( ) 
//Task 相关 信息 的 反 序列 化 
val (taskFiles, taskJars, taskBytes) = Task. deserializeWithDependencies( serializedTask ) 
updateDependencies ( taskFiles, taskJars ) 
task = ser. deserialize| Task| Any | | ( taskBytes, 


e 
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Thread. currentThread. getContextClassLoader ) 
attemptedTask = Some ( task ) 
logDebug( " Task " + taskId + "'s epoch is " + task. epoch) 
env. mapOutputTracker. updateEpoch( task. epoch) 


// Run the actual task and measure its runtime. 
taskStart = System. currentTimeMillis ( ) 
val value = task. run(tasklId. tolnt)  // 运 行 Task 


val taskFinish = System. currentTimeMillis( ) 


// M the task has been killed, let's fail it. 
if (task. killed) | 
throw newTaskKilledException 


val resultSer = SparkEnv. get. serializer. newInstance( ) 
val beforeSerialization 2 System. currentTimeMillis( ) 
val valueBytes = resultSer. serialize( value ) 


val afterSerialization = System. currentTimeMillis( ) 


for (m «- task. metrics) | 
m. executorDeserializeTime =taskStart — deserializeStartTime 
m. executorRunTime = taskFinish — taskStart 
m. jumGCTime = gcTime — startGCTime 


m. resultSerializationTime = afterSerialization — beforeSerialization 


val accumUpdates = Accumulators. values 


val directResult = new DirectTaskResult( valueBytes, accumUpdates , 
task. metrics. orNull ) 

val serializedDirectResult = ser. serialize( directResult ) 

val resultSize = serializedDirectResult. limit 


execBackend. statusUpdate( taskId, TaskState. FINISHED, serializedResult ) 
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至 此 ， 一 个 Task 就 运行 结束 了 ， 对 于 Task Æ Executor 中 运行 的 细节 ， 我 们 在 第 5 章 讲 
Spark 运行 机 制 的 作业 调度 的 时 候 做 了 更 加 详细 的 分 析 ， 所 以 这 里 不 在 做 更 深入 的 探讨 。 

(13) 最 后 ， 当 Spark 应 用 程序 中 所 有 的 作业 都 提交 并 运行 结束 后 。 会 调用 SparkContext 
的 stop 方法 结束 应 用 。 


44 Yarn 一 Cluster 模式 


Yarn 是 一 种 统一 资源 管理 机 制 ， 在 其 上 面 可 以 运行 多 套 计算 框架 。 目 前 的 大 数据 技术 
领域 ， 大 多 数 公 司 除了 使 用 Spark 来 进行 数据 计算 ， 还 由 于 历史 原因 或 者 单方 面 业 务 处 理 的 
性 能 考虑 而 使 用 着 其 他 的 计算 框架 ， 比 如 MapReduce, Storm, Impala 等 计算 框架 。 基 于 此 
种 情况 Spark 开发 了 Spark on Yam 的 运行 模式 。 由 于 借助 了 Yarmn 良好 的 弹性 资源 管理 机 制 ， 
不 仅 部 署 Spark 应 用 更 加 方便 ， 而 且 用 户 在 Yam 集群 中 运行 的 服务 和 Spark 应 用 的 资源 也 完 
全 隅 离 ， 更 具 实 践 应 用 价值 的 是 Yam 可 以 通过 队列 的 方式 ， 同 时 管理 运行 在 集群 中 的 多 个 
服务 ， 鉴 于 此 ， 这 种 模式 也 是 目前 最 有 市 场 前 景 的 一 种 模式 。 

Spark on Yarn 模式 根据 Driver 在 集群 中 的 位 置 又 细 分 为 两 种 模式 : 一 种 是 Yarn - Cluster 
(或 称 为 Yarn - Standalone 模式 ) ， 这 种 模式 下 Driver 是 运行 在 Worker 结 点 (工作 结 点 ) 上 
的 ; 另 一 种 是 Yam - Client 模式 ， 这 种 模式 下 Driver 是 运行 在 Client (客户 端 ) 结 点 上 的 。 
xU 361i 1764128 Yarn - Cluster 模式 。 


Yarn - Cluster 模式 实例 部 署 及 运行 演示 


(1) 首先 需要 部 署 一 个 Hadoop Yam 集群 供 该 模式 使 用 。 由 于 在 前 面 的 第 2 章 我 们 已 经 
进行 了 Hadoop 集群 的 具体 安装 ， 这 里 只 需 在 Hadoop 集群 的 安装 包 下 更 新 与 Yarm 有 关 的 文 
件 信 息 。 

1) 用 vim 命令 打开 mapred - site. xml 文件 ， 配 置 一 个 name 为 mapreduce. framework. name, 
value 为 yam 的 属性 ， 具 体内 容 如 下 : 


Unless required by applicable law or agreed to in writing, software 
distributed under the License is distributed on an "AS IS" BASIS, 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
See the License for the specific language governing permissions and 
limitations under the License. See accompanying LICENSE file. 

==> 


<!-- Put site-specific property overrides in this file. --> 
«configuration» 
<property> 


<name>mapreduce. framework .name</ name> 
<vaLue>yarn</vaLlue> 
</property> 
</configuration> 


一 


2) 同样 配置 yarn - site. xml 文件 中 的 两 个 属性 ，Yarn 的 resourcemanager 位 于 hostname 
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(主机 各 ) 为 SparkMaster 的 结 点 上 ， 也 就 是 Hadoop 集群 的 主 结 点 上 (我 们 的 Hadoop 集群 和 
Spark 集群 在 安装 搭建 时 ， 他 们 的 Master 结 点 都 在 主机 名 为 SparkMaster 的 机 器 上 ) 。 对 于 第 
二 个 属性 名 为 yarn. nodemanager. aux. services 的 配置 ， 是 因为 在 Yarn 资源 管理 框架 下 运行 
MapReduce 程序 时 ， 需 要 让 各 个 NodeManager 在 启动 时 加 载 shuffle server, shuffle server 实际 
上 是 Jetty/Netty Server, Reduce Task 通过 该 server 从 各 个 NodeManager 上 远程 复制 Map Task 
E 中 间 结 果 。 上 面 增 加 的 两 个 配置 均 用 于 指定 shuffle serve。 在 这 里 我 们 需要 强调 的 一 

是 当 我 们 使 用 Yam 这 个 资源 管理 框架 的 时 候 ， 就 是 为 了 可 以 同时 使 用 多 套 计算 框架 来 执 
is 和 目的 任务 ， 所 以 这 里 的 第 二 个 属性 配置 针对 的 是 MapReduce 计算 框架 。 具 体 配置 内 容 
如 下 : 


Unless required by applicable law or agreed to in writing, software 
distributed under the License is distributed on an "AS IS" BASIS, 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
See the License for the specific language governing permissions and 
limitations under the License. See accompanying LICENSE file. 

--> 

«configuration 


<!-- Site specific YARN configuration properties --> 
«property» 
<name>yarn.resourcemanager .hostname</name> 
«value»SparkMaster«/value- 
</property> 
<property> 
<name>yarn.nodemanager .aux-services</name> 
<value>mapreduce_shuffle</value= 
</property> 
</configuration> 


(2) XB Spark on Yarn 模式 的 的 时 候 ， 仅 需要 在 一 台 可 以 提交 Spark Application (应 用 
程序 ) 到 Yarn 集群 的 客户 端 结 点 部 署 Spark 即 可 ， 不 用 每 台 机 器 都 部 署 Spark。 在 客户 端的 
配置 文件 中 需要 设置 Yam 和 HDFS 的 相关 属性 ， 因 为 需要 读 取 Yarn 集群 的 配置 文件 。 修 改 
$SPARK, HOME/conf/spark - env. sh 这 个 文件 中 HADOOP_HOME 和 HADOOP_CONF_DIR 这 
两 个 环境 变量 的 值 ， 修 改 的 结果 如 下 所 示 。 


# - SPARK PUBLIC DNS, to set the public dns name of the master or workers 
&export SPARK DAEMON JAVA OPTS-"-Dspark.deploy.recoveryMode-ZOOKEEPER - 
P deploy. zookeeper. url=SparkMaster:2181,SparkWorker1:2181 -Dspark.deploy.zookeeper.dir-/spark" 
e JAVA HOME-/usr/lib/java/jdki.7.0 67 
t SCALA HOME-/usr/lib/scala/scala-2.11.4 
t HADOOP HOME-/usr/local/hadoop/hadoop-2.4.1 一 一 HDFS 的 部 署 路 径 


t HADOOP CONF DIR-/usr/iocal/hadoop/hadoop-2.4.1/etc/hadoop 

t SPARK MASTER IP-SparkMaster 

t SPARK WORKER MEMORY-2g R 

t SPARK_WORKER_CORES=2 HDFS 中 conf 配 置 文件 的 路 径 


t SPARK WORKER INSTANCES-1 


(3) Spark 上 自身 的 Master 结 点 和 Worker 结 点 不 需要 启动 ， 但 是 Spark 的 部 署 包 必 须 是 基 
于 对 应 的 Yarn 版 本 正确 编译 后 的 ， 否 则 会 出 现 Spark 和 Yam 的 兼容 性 问题 。 对 于 Spark 的 
部 车 包 ， 我 们 既 可 以 在 Spark 的 官网 上 下 载 编译 后 的 安装 包 ， 也 可 以 用 SBT 的 方 Sod. 
比如 我 们 现在 使 用 的 是 Hadoop 2. 4. 1， 可 以 在 下 载 下 来 在 Spark 根 目录 下 使 用 如 下 命令 进 
打包 : 


SPARK_HADOOP_VERSION =2. 4. 1 SPARK YARN = truesbt/sbt assembly 


(4) Yarn - Cluster 模式 还 可 以 通过 在 $SPARK_HOME/ conf 目录 下 的 spark - default. conf 
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文件 里 或 者 提交 应 用 的 工具 (如 spark - submit) 的 附加 参数 列表 写 人 一 些 与 Yam 有 关 的 属 
性 ， 来 调整 Yarn - cluster 模式 下 的 运行 行为 。 如 果 修 改 $SPARK_HOME/conf/spark - de- 
fault. conf 这 个 文件 ， 需 要 配置 的 可 以 有 如 下 人 参数: 

1) spark. yarn. applicationMaster. waitTries : ResourceManager (集群 资源 管理 器 ) 等 待 
Spark AppMaster 局 动 的 次 数 ， 也 就 是 SparkContext 初始 化 次 数 。 超 过 这 个 数值 ， 局 动 失败 。 
默认 值 是 10 次 。 

2) Spark. yarn. submit. file. replication; spark 应 用 程序 的 依赖 文件 上 传 到 HDFS 上 时 ， 在 
HDFS 中 存储 的 副本 ， 默 认 值 是 三 份 。 

3) spark. yarn. scheduler. heartbeat. interval - ms; Spark AppMaster 发 送 心 跳 信 息 给 YARN 
的 ResourceManager 的 时 间 间 隔 。 默 认 值 是 5000ms。 

4) Spark. yarn. preserve. staging. files; 在 Spark 应 用 程序 结束 后 ， 是 否 还 保存 上 传 的 依赖 
文件 。 当 这 个 选项 的 值 设置 为 true 时 , Æ Job (作业) 结束 后 ， 会 将 上 传 的 依赖 文件 保留 而 
不 是 删除 。 

5) Spark. yarn. max. executor. failures; 导致 应 用 程序 宣告 失败 的 最 大 executor 失败 数 。 
默认 值 是 两 倍 于 executor 数 。 

配置 完成 后 ， 将 Spark 部 署 文 件 放置 到 Yam 所 在 的 结 点 中 。 

(5) 启动 yarn 集群 。 进 入 Hadoop 安装 包 的 sbin 目录 下 ， 使 用 . /start — yarn. sh 命令 局 
动 Yarn 集群 ， 在 shell 命令 终端 的 演示 代码 如 下 : 


root@SparkMaster: /usr/local/hadoop/hadoop-2.4.1/sbin# ls 


root@SparkMaster: /usr/local/hadoop/hadoop-2.4.1/sbin# ./start-yarn.sh 

starting yarn daemons 

starting resourcemanager, logging to /usr/local/hadoop/hadoop-2.4.1/logs/yarn-root-resourcemanager-SparkMaster.out 
SparkWorkeri: starting nodemanager, logging to /usr/local/hadoop/hadoop-2.4.1/logs/yarn-root-nodemanager-SparkWorker1.out 
SparkWorker2: starting nodemanager, logging to /usr/local/hadoop/hadoop-2.4.1/logs/yarn-root-nodemanager-SparkWorker2.out 
root@SparkMaster: /usr/local/hadoop/hadoop-2.4.1/sbin# jps 

3194 Jps 

3132 ResourceManager 

root@SparkMaster: /usr/local/hadoop/hadoop-2.4.1/sbin# 


从 上 面 的 运行 结果 中 ， 我 们 看 到 了 一 个 进程 pid X 3132 的 ResourceManager 进程 ， 这 说 
BA Yam 集群 已 经 启动 。 

(6) 我 们 使 用 Spark Submit 的 方式 进行 Spark Application. (这 里 的 样 例 使 用 Spark 官方 提 
供 的 SparkPi 例子 ) 的 提交 ，shell 命令 端的 运行 代码 如 下 : 


root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4# ./bin/spark-submit --class org.apache.spark.examples.Spa 
rkPi --master yarn-cluster lib/spark-examples*.jar 10 
Spark assembly has been built with Hive, including Datanucleus jars on classpath 


提交 过 后 ， 可 以 在 Yam 的 ResourceManager 进程 对 应 的 WebUI 中 查看 启动 的 Application 
(Spark 应 用 程序 ) 的 运行 情况 〈 如 图 4-8 所 示 )。 

运行 结束 后 ，Yam - Cluster 的 运行 结果 会 保存 在 ApplicationMaster 所 在 结 点 中 (也 就 是 
Driver 所 在 的 工作 结 点 ) 的 工作 目录 中 的 stdout 子 目 录 中 。 可 以 通过 命令 “find . - name 
“x stdout” ”查找 。 另 外 ，Application 日 志 会 在 任务 结束 后 汇集 到 HDFS 文件 系统 中 ， 可 以 


通过 “yarn logs - applicationId” 命令 查看 。 
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《 》 @ sparkmaster:8088/cluster 


CEG All Applications 


~ Cluster Cluster Metrics 

About Apps Submitted Apps Pending Apps Running Apps Completed Containers Running Memory Used | Memory Total Memory Reserved 

Nodes — [1 0 0 1 0 0B 16 GB 0B 

Applications = = - = = ——— = — - 
NEW | Show 20 M entries 
NEW SAVING - - 
SUBMITTED ID m User 3 Name $ Application Type $ Queue $ StartTime 
PUE application 1428323625685 0001 root org.apache.spark.examples.SparkPi SPARK default Mon, 06 Apr 2015 
FINISHED 12:37:25 GMT 
FAILED | Showing 1 to 1 of 1 entries 
KILLED 

Scheduler 


点 击 这 里 可 以 查看 运行 细 市 


图 4-8 Yarn 模式 下 Application 的 运行 情况 


"LL Yarn - Cluster 模式 内 部 实现 原理 


任何 框 染 与 Yam 的 结合 ， 都 必须 遵循 Yarn 的 开发 模式 。 我 们 首先 看 看 Yam 的 几 个 基 
本 元 系 的 作用 (如 图 4-9 所 示 )。Client 负责 提交 应 用 ; ResourceManager 负责 将 集群 的 资源 
分 配给 各 个 应 用 使 用 并 跟踪 这 些 资 源 (Container) 的 状态 和 监控 其 进度 ;ApplicationMaster 
(App Mstr) 负责 监控 Task 的 运行 过 程 ，Container 是 资源 分 配 和 调度 的 基本 单位 ， 在 其 内 部 
Eye SAFE. CPU, WEE. ZR SAL at ot; NodeManager 是 一 个 个 负责 计算 的 工作 结 点 ， 
主要 负责 启动 Application 所 需 的 Container, EPI CUNE, CPU, ER, WSE) 的 使 
用 情况 并 将 之 汇报 给 ResourceManager, 


Node 
: Manager 


MapReduce 状态 一 一 一 > 
任务 提交 - -- 一 
结 点 状态 一 -一 -> 
资源 请 求 


图 4-9 Yarn 的 基本 元 素 的 作用 


1. Yarn - Cluster 模式 下 Spark 的 工作 流程 

在 Yarn - Cluster 模式 中 ， 当 用 户 向 Yarn 中 提交 一 个 应 用 程序 后 ，Yarn 将 分 成 两 个 阶段 
运行 该 应 用 程序 : 第 一 个 阶段 是 把 Spark 的 Driver 作为 一 个 ApplicationMaster 在 Yarn 集群 中 
完 启 动 ; 第 二 个 阶段 是 由 ApplicationMaster 创建 应 用 程序 ， 然 后 为 该 应 用 程序 向 ResourceMa- 
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nager 申请 资源 ， 并 启动 Executor 来 运行 Task， 同 时 监控 它 的 整个 运行 过 程 ， 直 到 运行 完成 。 
Yarn - cluster 的 工作 流程 分 为 以 下 儿 个 步骤 (如 图 4-10 所 示 )。 


Application Master 


SparkContext 


加 YamClusterScheduler ! 


Resource 
Manager 


6. 4x B Container 


3 Container Container Container 
Node dosi (ExecutorBackend) (ExecutorBackend) 


图 4-10 Yarn - Cluster 模式 的 运行 流程 图 


(1) Spark Yarn Client 通过 ApplicationClientProtocol 协议 (Spark on yarn 模式 下 各 模块 之 
间 的 通信 协议 ， 可 以 参考 图 4-11) 向 Yam 中 的 ResourceManager 提交 应 用 程序 ， 其 中 包括 
ApplicationMaster 程序 、 局 动 ApplicationMaster 的 命令 以 及 需要 在 Executor 中 运行 的 程序 等 。 

(2) ResourceManager 收 到 请 求 后 ， 与 对 应 的 NodeManager 通信 ， 为 该 应 用 程序 分 配 第 
一 个 Container 作为 AppMaster (也 就 是 ApplicationMaster) 。 

(3) ResourceManager 要 求 NodeManager 在 这 个 Container 中 启动 应 用 程序 的 Application- 
Master ( AppMaster) ， 其 中 ApplicationMaster 中 包含 了 a d FER, 

(4) ApplicationMaster 首先 问 ResourceManager 注册 ， 这 样 用 户 可 以 直接 通过 ResourceM- 
anage 查看 应 用 程序 的 运行 状态 。 

(5) 然后 ApplicationMaster 将 采用 轮 询 的 方式 通过 RPC 协议 (这 里 的 是 ApplicationMas- 
terProtocol 协议 ， 如 图 4-11 中 所 示 ) 为 各 个 任务 申请 资源 ， 并 监控 它们 的 运行 状态 ， 直 到 
运行 结束 ， 其 中 Application 的 请 求 、 分 配 资 源 是 通过 YarnAllocationHandle 来 完成 的 。 

(6) 一 旦 ApplicationMaster 申请 到 资源 (也 就 是 Container) 后 ， 便 通过 ContainerMan- 
agerProtocol 协议 与 对 应 的 NodeManager 通信 ， 要 求 它 在 获得 的 Container 中 启动 启动 CoarseG- 
rainedExecutorBackend, CoarseGrainedExecutorBackend 启动 后 ， 会 向 ApplicationMaster 中 的 
SparkContext 注册 并 申请 Task， 这 一 点 和 Standalone 模式 一 样 ， 只 不 过 ，SparkContext 在 
Spark Application 中 初始 化 时 ， 使 用 CoarseGrainedSchedulerBackend 配合 YarnClusterScheduler 

进行 任务 的 调度 ， 而 YarnClusterScheduler 只 是 对 TaskSchedulerImpl 的 一 个 简单 包装 ， 增 加 了 
r Executor 的 等 竺 逻辑 等 。 
(7) ApplicationMaster 中 的 SparkContext 分 配 Task 给 CoarseGrainedExecutorBackend 执行 ， 


Spark 核心 源码 分 析 与 开发 实战 


CoarseGrainedExecutorBackend 运行 Task 并 通过 某 个 自 定 义 的 RPC 协议 亲 ApplicationMaster yE 
报 自 己 的 状态 和 进度 ， 以 让 ApplicationMaster 随时 和 掌握 各 个 任务 的 运行 状态 ， 从 而 可 以 在 任 
务 失 败 时 重新 启动 任务 。 


ApplicationClientProtocol 


App Client ResourceTracker 
自 定义 协议 1 ApplicationMaster -——————. NodeManager 
l 
| 
| b sm 
| duc 
i | Ss. Ss CContainerManagementProtocol ,. NodeManager 
| I i s a TN 
| Wes ai orm 
| | 自 定义 协议 Sp 
l | N & SS a 
l l x ES 
| | N pr 
1 l \ SA ^i 
| | 3 Nin 
i x BEN 
l 
| 
App Worker AppWorker App Worker 
l 
| 
l 
EA ee Ss ea ee Ss ee Se See ee a ee ee Se a e a ee ae ee Se) 
应 用 程序 组 件 ， 需 用 户 开 发 YARN 组 件 


图 4-11 Yarm 框架 下 各 个 模块 之 间 的 通信 图 


(8) 应 用 程序 运行 完成 后 ，ApplicationMaster [n] ResourceManager 申请 注销 并 关闭 自己 。 

2. Spark 源码 分 析 Yarn - Cluster 运行 模式 的 执行 流程 

在 Spark 的 Yarn - Cluster 模式 中 ，ApplicationMaster 指 的 是 org. apache. deploy. yarn. App- 
licationMaster, Client 指 的 是 org. apache. deploy. yarn. Client, 

(1) spark - submit 提交 应 用 后 ， 会 根据 自己 的 附加 属性 选择 模式 。 然 后 在 SparkSubmit 
类 的 launch 方法 中 会 利用 反射 技术 启动 org. apache. spark. deploy. yarn. Client 这 个 伴生 对 象 。 


// In yarn - cluster mode, use yarn. Client as a wrapper around the user class 
if (isYarnCluster) | 
// 如 果 spark — submit 提交 时 采用 的 是 Yarn - Cluster 模式 ,这 里 需要 启动 的 是 org. apache. spark. 
deploy. yarn. Client 这 个 伴生 对 象 
childMainClass = "org. apache. spark. deploy. yarn. Client" 
if (args. primaryResource ! = SPARK INTERNAL) | 
childArgs += (" —— jar" , args. primaryResource ) 
| 
childArgs += (" —- class" , args. mainClass) 
if (args. childArgs ! = null) | 
args. childArgs. foreach | arg => childArgs += (" --arg" , arg) | 
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| 


(2) 在 Client 的 main 方法 中 ， 会 调用 new Client (args, sparkConf) .run( ) 方 法 ， 在 Cli- 
ent 类 的 run 方法 中 会 调用 runApp( ) 方 法 ,在 runApp( ) 方 法 中 会 通过 调用 Client 的 submi- 
tApplication( ) 方 法 提交 应 用 。 下 面 我 们 看 一 下 Client 的 submitApplication( ) 方 法 的 实现 。 


/ ** 
* Submit an application running ourApplicationMaster to the ResourceManager. 
* 
* The stable Yarn API provides a convenience method ( YarnClient#createApplication ) for 
* creating applications and setting up the application submission context. This was not 
* avallable in the alpha API. 
*/ 
override def submitApplication( ) : Applicationld = | 
yarnClient. init( yarnConf) 
yarnClient. start( ) //4# JE yarn Conf 初始 化 yarnClient, 并 启动 它 


logInfo( " Requesting a new application from cluster with % d NodeManagers" 


. format ( yarnClient. get YarnClusterMetrics. getNumNodeManagers ) ) 


// Get a new application from our RM 

val newApp = yarnClient. createApplication( ) 

val newAppResponse = newApp. getNewApplicationResponse( ) 

val appId = newAppResponse. getApplicationId( ) /获取 ApplicationID 


// Verify whether the cluster has enough resources for our AM 


// 判 断 集群 中 的 资源 是 否 满足 Executor 和 ApplicationMaster 申请 的 资源 ,如 果 不 满 足 则 抛 出 


异常 


verifyClusterResources( newAppResponse ) 


// Set up the appropriate contexts to launch our AM 

/ / Y E VE TS Application 的 环境 变量 ,创建 Containerdion 启动 的 context 等 
val containerContext = createContainerLaunchContext ( newAppResponse ) 

// 设 置 Application 提交 的 context, 包 括 设置 应 用 的 名 字 队列 等 


val appContext = createApplicationSubmissionContext ( newApp, containerContext) 


// Finally, submit and monitor the application 
logInfo( s" Submitting application $ | appld. getId} to ResourceManager" ) 
yarnClient. submitApplication( appContext) /正式 提交 Application 
appld 

| 


(3) ApplicationMaster 负责 运行 Spark Application 的 Driver 程序 ， 并 且 分 配 执 行 Task 时 


p 
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的 Executors。 在 ApplicationMaster 中 调用 的 是 自己 的 run 方法 。 
1) 首先 在 ApplicationMaster 伴生 对 象 中 会 初始 化 ApplicationMaster 类 的 对 象 ， 并 调用 该 
MAAN run 方法 。 


object ApplicationMaster extends Logging | 
private var master; ApplicationMaster = _ 


def main( args; Array | String] ) = | 
SignalLogger. register( log) 
valamArgs = new ApplicationMasterArguments( args ) 
SparkHadoopUtil. get. runAsSparkUser | () => 
// 初 始 化 ApplicationMaster 类 的 对 象 
master = newApplicationMaster( amArgs, new YarnRMClientImpl( amArgs ) ) 
System. exit( master. run( ) ) // 调 用 ApplicationMaster 对 象 的 run( ) Z7 1 


2) 下 面 我 们 看 一 下 ApplicationMaster 类 中 的 run( ) 方 法 的 具体 实现 。 


final def run( ) :Int = | 


try | 
val appAttemptld = client. getAttemptId( ) 


if (isDriver) | 
//ix & ApplicationMaster 的 端口 
System. setProperty ( " spark. ui. port" , "0" ) 
//ix & Application 的 Master 


System. setProperty ( " spark. master" , " yarn — cluster" ) 


// Propagate the application ID so that YarnClusterSchedulerBackend can pick it up. 
System. setProperty ( " spark. yarn. app. id" , appAttemptld. getApplicationld( ). toString( ) ) 


logInfo( " ApplicationAttemptld;" + appAttemptld ) 


val fs = FileSystem. get( yarnConf) 
// At & Job 运行 结束 后 清除 HDFS 上 Staging 的 目录 级 别 , 默 认为 30 
valcleanupHook = new Runnable | 
override def run( ) | 
// \f the SparkContext is still registered, shut it down as a best case effort in case 


// users do not call sc. stop or do System. exit( ). 
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val sc = sparkContextRef. get( ) 
if (sc ! = null) | 


logInfo( " Invoking sc stop from shutdown hook" ) 


| sc. stop( ) > 


val maxAppAttempts = client. getMaxRegAttempts ( yarnConf ) 
val isLastAttempt = client. getAttemptIld( ). getAttemptld( ) >= maxAppAttempts 


if ( ! finished) | 
// 'This happens when the user application calls System. exit( ). We have the choice 
// of either failing or succeeding at this point. We report success to avoid 
// retrying applications that have succeeded ( System. exit(0) ) , which means that 
// applications that explicitly exit with a non — zero status will also show up as 
// succeeded in the RM UI. 
finish( finalStatus , 
ApplicationMaster. EXIT SUCCESS, 
" Shutdown hook called before final status was reported. " ) 


if ( unregistered) | 
// we only want tounregister if we don't want the RM to retry 
if (finalStatus == FinalApplicationStatus. SUCCEEDED | | isLastAttempt) | 
unregister( finalStatus , finalMsg) 
cleanupStagingDir (fs ) 


| 


// Use higher priority thanFileSystem. 
assert ( ApplicationMaster. SHUTDOWN _ HOOK _ PRIORITY > FileSystem. SHUTDOWN _ HOOK _ 
PRIORITY ) 
ShutdownHookManager 
. get( ). addShutdownHook ( cleanupHook , ApplicationMaster. SHUTDOWN. HOOK, PRIORITY ) 


/设置 安全 认证 的 相关 信息 


valsecurityMgr = new SecurityManager( sparkConf ) 


if (isDriver) | 
runDriver(securityMer) /启动 Driver 
| else | 


runExecutorLauncher( securityMgr) 


> 
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| catch | 
case e; Exception => 
// catch everything else if not specifically handled 
logError( " Uncaught exception;" , e) 
finish( FinalApplicationStatus. FAILED , 
ApplicationMaster. EXIT UNCAUGHT EXCEPTION , 


" 


" Uncaught exception;" +e. getMessage( ) ) 


| 


exitCode 


| 


3) 下 面 我 们 继续 跟踪 runDriver 方法 的 实现 ， 在 该 方法 内 部 会 调用 registerAM( ) 方 法 问 
ResourceManager 注册 ApplicationMaster。 


private defrunDriver( securityMegr ; SecurityManager) ; Unit = | 
addAmlpFilter( ) 
userClassThread = startUserClass( ) 


// This a bithacky, but we need to wait until the spark. driver. port property has 
// been set by the Thread executing the user class. 


val sc = waitForSparkContextlInitialized( ) 


// M there is noSparkContext at this point, just fail the app. 
if (sc == null) | 
finish( FinalApplicationStatus. FAILED, 
ApplicationMaster. EXIT SC. NOT INITED, 
"Timed out waiting forSparkContext. " ) 
| else | 
registerAM ( sc. ui. map(_. appUlAddress). getOrElse( " " ) , securityMgr) 
userClassThread. join( ) 


| 


4) 继续 跟踪 registerAM( ) 方 法 的 实现 。 在 该 方法 中 主要 做 两 件 事情 : 第 一 是 Applica- 
tionMaster 的 注册 。 第 二 是 ApplicationMaster | 可 ResourceManager 申请 Container 资源 。 


private def registerAM (uiAddress: String, securityMgr: SecurityManager) = | 
val sc = sparkContextRef. get( ) 


val appld = client. getAttemptld( ). getApplicationld( ). toString( ) 
val historyAddress = 
sparkConf. getOption ( " spark. yarn. historyServer. address" ) 
. map | address => s" $|address| $ | HistoryServer. UI. PATH. PREFIX|/ ${appId}" | 
. getOrElse( " " ) 
// ApplicationMaster 的 注册 
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allocator = client. register( yarnConf, 
if (sc ! 2 null) sc. getConf else sparkConf, 
if (sc ! = null) sc. preferredNodeLocationData else Map( ) , 
uiAddress , i 
history Address , e 
securityMegr) 
// {a} ResourceManager 申请 Container 资源 
allocator. allocateResources ( ) 


reporterThread = launchReporterThread( ) 


| 


对 收 到 的 Container 资源 ，ApplicationMaster 会 在 其 内 部 启动 一 个 ExecutorRunner 线程 来 
管理 Executor 中 运行 的 Task, 
(4) 最 后 Task 会 在 Executor 中 运行 ，CoarseGrainedExecutorBackend 通过 Akka 通信 框架 


跟 CoarseGrainedSchedulerBackend 进行 Task 运行 状况 的 通信 ， 直 到 Job 运行 完成 。 


7“ Yarn - Client 模式 


Yarn - Client 模式 中 ，Driver 在 客户 端 本 地 运行 ， 这 种 模式 可 以 使 得 Spark Application 和 
客户 端 进 行 交 互 ， 因 为 Driver 在 客户 端 ， 所 以 可 以 通过 WebUI 访问 Driver 的 状态 ， 默 认 访 
问 地 址 是 http ://sparkmasterhost :4040 ，sparkmasterhost 指 的 是 Spark 集群 中 Master 结 点 的 主 
BLA. m Yarn 通过 地 址 http://haoopmaster; 8088 访问 ，haoopmaster 指 的 是 Hadoop 集群 的 
Master 结 点 IP 地 址 。 


Yarn - Client 模式 实例 部 署 及 运行 演示 


Yarn — Client 模式 和 Yarn - Cluster 模式 的 部 署 基 本 上 完全 一 致 ， 但 是 Yam - Client 模式 


有 自己 独 有 的 一 些 属性 ， 这 些 属性 既 可 以 写 在 Spark ff) SHOME/conf/spark - env 文件 中 , 也 
可 以 在 使 用 Spark 工具 (spark - submit). 提交 任务 时 添加 在 附加 属性 列表 里 。 有 具体 属性 如 下 
面 表 4-4 所 示 。 

表 4-4 Yarn - client 模式 的 属性 以 及 含义 
属 性 LE. 
SPARK REXECUTOR RINSTANCES | 在 Yam 集群 中 启动 的 ExecutorBackend 的 数目 ， 默 认为 两 个 


SPARK_REXECUTOR_RCORES 每 个 ExecutorBackend 所 占用 的 CPU 核 的 数目 


Spark 应 用 程序 Application 的 Driver 运行 时 所 占用 的 内 存 大 小 ， 这 里 的 Driver 
对 应 Yarn 中 的 ApplicationMaster 


SPARK_RDRIVER_RMEMORY 


SPARK_REXECUTOR_RMEMORY 每 个 ExecutorBackend 所 占用 的 内 存 大 小 


SPARK RYARN RAPP RNAME Spark Application 在 Yarn 中 的 名 字 


SPARK RYARN RQUEUE Application 提交 到 Yarn 中 的 哪个 队列 ， 默 认 是 default 


(EE) 
B 性 含 义 
SPARK_RYARN_RDIST_RFILES 程序 执行 时 需要 分 发 到 各 个 ExecutorBackend 的 文件 列表 ， 以 逗号 分 隔 


SPARK_RYARN_RDIST_RARCHIVES 程序 执行 时 ， 需 要 分 发 到 各 个 ExecutorBackend 的 归档 文件 列表 ， 以 逗号 分 隔 


下 面 我 们 用 spark - submit 的 方式 提交 Application (比如 Spark 官方 提供 的 SparkPi 案 
例 )， 可 以 在 附加 参数 列表 添加 上 面 列 出 的 yarn - client 模式 特有 的 属性 ， 命 令 如 下 : 


. / bin/spark - submit — — class org. apache. spark. examples. SparkPi —— master yarn — client V 
—— num - executors 3 —— driver - memory 4g —-— executor - memory 2g — —— executor — cores 1 \ 


lib\spark — examples * . jar 


Fira, "-- master” SAURA NISE “yan -client” 的 话 ， 用 “yarm” 也 是 指 的 同一 种 
模式 提交 。 并 且 ， 与 yarn - cluster 模式 不 同 的 是 ， 使 用 Yarn - Client 模式 提交 Application, 
当 运行 结束 之 后 可 以 直接 在 客户 本 地 看 到 控制 台 打 印 的 结果 ， 这 是 因为 Driver 直接 运行 在 客 
my 


Yarn - Client 模式 内 部 实现 原理 
All Yarn - Cluster 模式 一 样 ，Yarn - Client 模式 的 Spark Application 主要 也 是 通过 spark - 
submit 脚本 提交 的 。 但 是 Yarn - Client 模式 的 Spark Application 的 运行 不 需要 通过 Client 类 来 


封闭 局 动 ， 而 是 直接 通过 反射 机 制 调 用 作业 的 main 函数 。 下 面 我 们 参考 图 4-12 来 分 析 其 内 
部 实现 原理 。 


Spark 
App Master/ Executor 


E h 
xecutorLauncher 


Sa 


Executor 


ResourceManager 


: <7 

Client / TE 

f Spark Driver JTA pu 
n | ES Spark 
[jS 
[ — Manager 


K| 4-12 yarn - Client 模式 的 工作 流程 


(1) 客户 端 向 Yarn 提交 Spark Application ， 在 这 里 通过 SparkSubmit 类 的 launch 的 函数 
直接 调用 作业 的 main 方法 〈 通 过 反射 机 制 实现 ) ， 如 Spark 源码 的 SparkSumit 类 的 cre- 
ateLaunchEnv( ) 方 法 中 ， 当 部 署 模式 为 CLIENT 时 ， 会 通过 反射 得 到 用 户 编 写 的 Spark 应 用 
程序 的 main 方法 。 


// In client mode, launch the application main class directly 


// \n addition, add the main application jar and any added jars (if any) to the classpath 
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if (deployMode == CLIENT) | 
childMainClass = args. mainClass /通过 反射 得 到 Spark 应 用 程序 的 main 方法 
if (isUserJar( args. primaryResource) ) | 
childClasspath += args. primaryResource > 
| 


if (args. jars ! = null) | childClasspath ++= args. jars. split(" ," ) | 
if (args. childArgs ! = null) | childArgs ++= args. childArgs | 
| 


(2) 客户 端 会 在 本 地 局 动 Driver， 因 为 Spark Application 的 main 方法 一 定 都 有 Driver 的 
SparkContext， 会 对 SparkContext 进行 初始 化 。 

(3) 在 SparkContext 初始 化 中 将 会 依次 做 如 下 的 事情 : 设置 相关 的 配置 、 注 册 MapOut- 
putTracker 、BlockManagerMaster 、BlockManager， 创 建 TaskScheduler 和 dagScheduler; 其 中 比 
较 重 要 的 是 创建 TaskScheduler 和 dagScheduler。 在 创建 TaskScheduler 的 时 候 会 根据 我 们 传 进 
来 的 master 来 选择 Scheduler 和 SchedulerBackend。 由 于 我 们 选择 的 是 yarn - client 模式 ， 程 
序 会 选择 YarnClientClusterScheduler 和 YarnClientSchedulerBackend， 上 面 两 个 实例 的 获取 都 
是 通过 反射 机 制 实现 的 ，YarnClientSchedulerBackend 类 是 CoarseGrainedSchedulerBackend 类 
的 子 类 ，YarnClientClusterScheduler 是 TaskSchedulerlmpl 的 子 类 ， 仅 仅 重 写 了 TaskScheduler- 
Impl 中 的 getRackForHost 方法 。 

(4) 初始 化 TaskScheduler (这 里 是 YarnClientClusterScheduler) 后 ， 将 创建 dagSchedul- 
er， 然 后 通过 taskScheduler. start( ) 启动 TaskScheduler， 而 在 TaskScheduler 启动 的 过 程 中 也 会 
调用 SchedulerBackend (这 里 是 YarnClientSchedulerBackend) 的 start 方法 。 在 SchedulerBack- 
end 启动 的 过 程 中 将 会 初始 化 一 些 参 数 ， 封 装 在 ClientArguments 中 ， 并 将 封装 好 的 ClientAr- 
guments 传 进 Client 类 中 ， 并 调用 client. runApp( ) 方 法 获取 Application ID, 

(5) client. runApp 里 面 的 做 是 和 前 面 yarn — cluster 模式 中 进行 操作 那 方 类似， 不 同 的 是 
在 里 面 启动 是 org. apache. spark. deploy. yarn. ExecutorLauncher (yarn - cluster 模式 启动 的 是 
ApplicationMaster) ， 它 只 人 负责 启动 Executor 和 客户 端的 Driver 进行 通信 。 

(6) 在 ExecutorLauncher 里 面 会 向 ApplicationMaster 注册 该 Application。 注 册 完 之 后 将 会 
等 待 driver 的 启动 ， 当 driver 启动 完 之 后 ， 会 创建 一 个 MonitorActor 对 象 用 于 和 CoarseG- 
rainedSchedulerBackend 进行 通信 。 

(7) ExecutorLauncher 通过 YarnAllocationHandle 向 ResourceManager 申请 资源 来 运行 
Task, ExecutorLauncher 接受 到 ResourceManager 分 配 的 Container 资源 后 ， 会 启动 CoarseG- 
rainedExecutorBackend， 然 后 CoarseGrainedExecutorBackend 会 向 客户 端的 Driver 注册 并 申请 
Task, 

(8) 最 后 Task & Æ Executor "Hiz fj, CoarseGrainedExecutorBackend 通过 Akka 通信 框架 
ER CoarseGrainedSchedulerBackend 进行 Task 运行 状况 的 通信 ， 直 到 Job 运行 完成 。 

(9) 在 Application 运行 的 时 候 ，YarnClientSchedulerBackend 会 每 隔 1s 会 获取 到 Applica- 
tion 的 运行 状况 ， 并 打印 出 相应 的 运行 信息 ， 当 Application 的 状态 是 FINISHED, FAILED 和 
KILLED 中 的 一 种 ， 那 么 程序 将 退出 等 竺 。 

(10) 最 后 有 个 线程 会 再 次 确认 Application 的 状态 ， 当 Application 的 状态 是 FINISHED , 
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FAILED 和 KILLED 中 的 一 种 ， 程 序 就 运行 守成， 并 俘 止 SparkContext。 整 个 过 程 就 结束 了 。 


4.60 Mesos 模式 


Mesos 模式 调度 方式 有 两 种 : 粗 粒 度 和 细 粒 度 。 粗 粒度 方式 涉及 到 的 类 有 CoarseMesosS- 
chedulerBackend 和 TaskSchedulerImpl 2$; 而 细 粒 度 方式 涉及 到 的 类 有 MesosSchedulerBackend 
和 TaskSchedulerImpl 类 。 CoarseMesosSchedulerBackend 和 MesosSchedulerBackend 都 继承 了 
MScheduler (其实 是 Mesos 的 Scheduler), ， 便 于 注册 到 Mesos 资源 调度 的 框架 中 。 选 择 哪 种 
模式 可 以 通过 spark. mesos. coarse 参数 配置 ， 默 认 的 模式 是 MesosSchedulerBackend。 


0L Mesos 模式 实例 部 署 及 运行 演示 


在 Mesos 模式 下 运行 Spark 集群 ， 首 先 需 要 部 署 Mesos 到 所 有 的 工作 结 点 上 ， 在 Mesos 
的 官网 上 分 别 有 在 Ubuntu 和 CentOS 上 的 安装 使 用 ， 参 考 网 址 : http://mesos. apache. org/ 
gettingstarted/。 这 里 我 们 演示 在 CentOS 上 的 Mesos 部 署 。 

1. 操作 系统 


CentOS 7, 
JDK 1.6 VE, ùH :/usr/share/jdk1. 7. 0. RA5, 


2. 修改 结 点 名 字 
(1) 本 次 搭建 Spark 集群 机 融 主 从 结 点 , 修改 host (/etc/hosts) 如 下 : 


Hostname Ip 

Master xd-ui 192.168.1.5 
Slave 1 Xd-1 192.168.1.6 
Slave 2 Xd-2 192.168.1.7 
Slave 3 Xd-3 192.168.1.8 


(2) 安装 Mesosphere repo, 


sudo rpm -Uvh http://repos.mesosphere.io/el/7/noarch/RPMS/mesosphere-el-repo-7-1.n 
oarch.rpm 


(3) 下 载 Apache Mesos, 


wget http://downloads.mesosphere.io/master/centos/7/mesos-0.21.1-1.1.centos701406. 
x86_64.rpm 
sudo rpm -Uvh mesos-0.21.1-1.1.centos701406.x86 64.rpm 


(4) 安装 Marathon, 
sudo yum -y install marathon 
(5) 安装 Chronos, 


sudo yum -y install chronos 


(6) 配置 Mesos master 
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结 点 ， 市 点 配置 属性 如 表 4-5 所 示 。 


表 4-5 Mesos master 结 点 配置 属性 


内 容 


= X 


/ etc/ mesos — master/ quorum 


1 


Quorum 主 结 点 个 数 ， 类 似 hadoop Ifi 
ZE 
SA 人 


a © 


etc/mesos — master/ hostname 


xd - ui 


主机 名 


/ etc/mesos — master/work_Rdir 


/var/lib/mesos (默认 ) 


Moses 工作 目录 


/ etc/ mesos/ zk 


配置 结构 显示 如 下 。 


zk ://xd -1:2181,xd - 2:2181 , xd 
—3.2181/mesos 


| dev? xd -ui ~ | $tree /etc/mesos — master/ 


/etc/ mesos — master/ 


FF 一 一 hostname 
FF 一 一 quorum 
L—— work. dir 


-» xd-ui 
-> 1 
—» /alidatal/mesos 


(7) 重启 Mesos Master, 


| dev? xd -ui ~ | $sudo servicemesos — master restart 


(8) 配置 Mesosphere slave 结 点 。 


Xd-1 


配置 各 个 结 点 的 Slaves 


[dev spark -1 ~ | 


/ etc/ mesos — slave/ 


$tree /etc/mesos — slave/ 


| hostname xd -1 

-一 一 work. dir / alidatal/mesos 
Xd -2 
配置 各 个 结 点 的 Slaves 


| dev? spark -2 ~ | 


/ etc/ mesos — slave/ 


$tree /etc/mesos — slave/ 


FF 一 一 hostname xd -2 

上 -一 一 work. dir / alidatal/mesos 
Xd -3 

配置 各 个 结 点 的 Slaves 


[ dev? spark -3 ~ | $tree /etc/mesos — slave/ 


/ etc/ mesos — slave/ 
FF 一 一 hostname 


上 -一 一 work dir 


xd -3 
/ alidatal/mesos 


Zookeeper 设置 


(9) 在 结 点 | xd -1,xd -2,xd -3] E JH #4 Mesos Slaves, 
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Spark 


| dev? xd -1 ~ | $sudo servicemesos - slave restart 


(10) 检查 各 个 结 点 是 否 起 来 。 出 现 以 下 类 似 内 容 则 局 动 正常 。 


[dev@xd-ui ~]$sudo ps -ef | grep mesos 
/usr/sbin/mesos-slave --master=zk://xd-1:2181, xd-2:2181,xd-3:2181/mesos --log dir= 
/var/log/mesos --hostname=xd-3 --work dir-/alidatal/mesos 


(11) 访问 Mesosphere ER, MUS A aed ib. N a def A http ://xd — ui: 


5050/, jid: slaves 标签 页 查看 。 


3. Spark 配置 
(1) 下 载 并 解压 spark - 1. 2. 1 — bin - hadoop2. 4. tgz。 


tar -czvf spark-1.2.1-bin-hadoop2.4.tgz spark-1.2.1-bin-hadoop2.4 
(2) {6% $| SPARK, RHOME | /bin/spark - class 或 者 conf/spark - env. sh， 在 首 行 添加 : 
export JAVA. HOME = /usr/share/jdk1. 7. 0. 45 


注意 : 确定 所 有 的 Mesos 结 点 的 JDK， 按 照 目录 是 一 致 的 。 
(3) 再 压缩 成 spark - 1. 2. 1 -bin -hadoop2. 4. tgz。 
tar -czvf spark-1.2.1-bin-haoop2.4.tgz 


(4) 再 发 布 压缩 tgz 包 到 hdfs 或 者 http。 
(5) 把 解压 的 spark 目录 放 到 mesos - master Eo JP H Mr & $| SPARK_RHOME | /conf/ 


spark — env. sh ， 在 文件 末尾 添加 : 


export MESOS NATIVE_LIBRARY=/usr/local/lib/libmesos.so 

export SPARK_EXECUTOR_URI=http://192.168.@.7/download/ spark-1.2.1-bin-haoop2.4.tg 
z 

export MASTER=mesos://xd-ui:5050 


(6) 启动 Spark shell, 


[dev@xd-ui spark-1.2.@-dist]$ ./bin/spark-shell 

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 
15/61/22 16:07:46 INFO SecurityManager: Changing view acls to: dev 

15/01/22 16:07:46 INFO SecurityManager: Changing modify acls to: dev 

15/01/22 16:87:46 INFO SecurityManager: SecurityManager: authentication disabled; 
ui acls disabled; users with view permissions: Set(dev); users with modify permiss 
ions: Set(dev) 

15/01/22 16:87:46 INFO HttpServer: Starting HTTP Server 

15/01/22 16:07:46 INFO Utils: Successfully started service 'HTTP class server' on 
port 50256. 

Welcome to 


UNO NES. 
Fi Pe ZAL ASN version 1.2.09 
/ 


Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0 45) 
Type in expressions to have them evaluated. 
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(7) 输入 测试 代码 。 


scala» val data = 
{_< 10).collect() 
data: scala.collection.immutable.Range.Inclusive = Range(1, 2, 3, 4, 5, 6, 7, 8, 9 
2590: 11. 42. 13. B5 45. 16, 17; 18 19, 20. 21; 29. 23. 24, 25, 26; 22. 28, 29, 
30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 
151. 52, 53, 54, 55, 56, 57, 58. 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 79, 
71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, BD. 87, 88, BO, OD, 91 
, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 
, 110, 111, 112; 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 
126, 127, 128, 129, 130; 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 14 
2, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 
159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170... 


1 to 10000; val distData - sc.parallelize(data); distData.filter 


(8) 查看 mesos Ul 界面 确定 任务 是 


BU) o 


ATA 
fief 


JJ. NAZA http ://xd —ui:5050 (如 图 4-13 


c 

bones esce. Active Tasks 

Server. 10 163 107 37 5050 

Version: 021 1 m em = : — 
Bu Startea 

2015-01-09 10 42 30+0800 by NO active tasks 

E 

Started: 

EBS: AE ELE TED Completed Tasks ; 

Elected. 

2015-01-221 15.33 40«0800 "umm amm ; = — 

30 tké0mitage30 — FIMSHMED  20159-01-22716 26 3090800 —— 2015-01-22116 26.2«0800 


Slaves 27 tatk3 0m stage 2D FWNSMED 201501-271716 26 50:0500 2015-01.221 16 24 540600 
sed 3 23 t$0m sage 30 — FINSRED — 2015-01-22T 16 24 30«0800 2015-01-22116 26 $2«0800 
Deactiated 0 38 tatkO 0m stage 30 FNSED  2015.01.221 t6 2€ 50:0500 2015-01.221 16 26 55-0800 

26 tx 2003396 30. FWaSRED — 2015-01-22116 26 30«0800 2015-01.22116 26 3240800 
Tasks 31 task? Om stage 30 FeaSMED 201501-271716 26 50:0500 2015.01.221 16 24 4340500 
Stagec t4 28 taska4Dunstage 30 FMSeo — 2015-01-22116 24 $0«0800 2015-01.221 18 26 94-0800 

LE dd 


ILE E 
+ A atone A mo m, ree me "as ^ dh Put "^ To- 2 
F epe ne gn eee, 


图 4-13 Mosos 的 WebUI 

(9) 打开 spark WebUI 界面 查看 任务 执行 结果 

图 4-14 所 示 )。 
Spa 


Stu Sparti eres :， 
Details for Stage 3 
Total task tme seross aii tasks: 25 3 
b Show 3ddibon ai metrics 
Summary Metrics for 8 Completed Tasks 
Metric Min 29th percentile Median. TSth percentite Mas 
Duraeon 2*5 2% 4% 51 6s 
OC Tere 011 011 021 021 ' 
Aggregated Metrics by Executor 

Task Tetu Fes Succeeded Shute $nume nume Spa nume Spill 

Executor IO Adaren Tune Taste uL ul input Output Read write (Memory) (Deen) 
20190122-1 12951-62781 1082-5050. 4s 0 2 000 005 00S 008 905 ops 
2210952 ! $0005 
20190122 15033662 T8! 1082-5050. E UI 3 0 00B 008 2028 008 00B 008 
16760-50 347362 
20190172- 190396-627701 1 002- $050- o its 3 o 3 008 0068 ooe oe 005 008 
16760-51 2 $39% 


图 4-14 任务 执行 结 
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4. 6. 2 Mesos 模式 内 部 实现 原理 


对 于 Mesos 的 粗 粒 度 模 式 ，CoarseMesoschedulerBackend 实现 了 Mesos 的 Scheduler 接口 ， 
并 将 其 注册 到 Mesos 资源 调度 框架 中 ， 用 于 接收 Mesos 的 资源 分 配 ， 在 得 到 资源 后 通过 Me- 
sos 框架 远程 启动 CoarseGrainedExecutorBackend， 之 后 的 任务 交互 过 程 和 Spark Standalone 模 
式 一 样 ， 由 Driver Actor 和 Executor Actor 直接 完成 。 

对 于 Mesos B ZH Fiz BE ETL, MesosSchedulerBackend 直接 继承 自 SchedulerBackend， 它 同 
样 实 现 了 Mesos 的 Scheduler 接口 并 注册 到 Mesos 资源 调度 的 框架 中 用 于 接收 Mesos 的 资源 分 
配 。 不 同 的 是 在 接受 资源 后 ，MesosSchedulerBackend 启动 的 是 基于 单个 任务 的 远程 Execu- 
tor， 通 过 在 远程 执行 . /sbin/spark — executor 命令 来 启动 MesosExecutorBackend， 在 MesosEx- 
ecutorbackend 中 直接 启动 和 执行 对 应 的 任务 。 

两 种 颗粒 度 的 调度 模式 各 有 优 缺 点 ， 粗 粒度 模式 中 ， 一 且 Executor 获取 资源 就 长 期 占 
有 ， 容 易 资 源 浪费 ， 但 是 减少 了 资源 的 时 间 开 销 ; 而 细 粒 度 模式 是 根据 任务 的 实际 情况 动态 
调度 的 ， 它 的 特点 去 粗 粒 度 正 好 相反 。 你 可 以 在 程序 中 通过 设置 spark. mesos. coarse 来 选择 
是 否 使 用 粗 粒 度 的 调度 模式 : conf. set( “spark. mesos. coarse" ,” true” ) o 


AS. 7 gi 


1. Spark 的 基本 工作 流程 是 怎样 进行 的 ? 

2. 在 Standalone 模式 下 ， 根据 Driver 是 否 在 集群 内 部 ， 可 以 分 为 Client 模式 和 Cluster 模 
式 ， 这 这 两 种 模式 的 应 用 提交 是 如 何 实现 的 ? 

3. 对 于 Spark on Yam， 也 可 以 分 为 两 类 : yarn - client 和 yarn - cluster。 这 两 种 模式 的 实 
现 原 理 是 什么 ? 
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Spark 集群 的 染 构 


Spark 集群 中 的 Spark Application (Spark 应 用 ) 的 运行 架构 由 两 部 分 组 成 (如 图 5-1 所 
ZR: 包含 SparkContext 的 Driver Program (驱动 程序 ) 和 在 Executor 中 执行 计算 的 程序 。Spark 
Application 一 般 都 是 在 集群 上 以 独立 的 进程 集合 运行 。Spark 有 多 种 运行 模式 ， 比 如 Spark 
Standalone (Spark 自身 单独 的 集群 资源 管理 古 )、Yarm、Mesos， 这 些 集群 资源 管理 絮 给 Spark 
Applicaiton 提供 了 计算 资源 的 分 配 和 对 这 些 资源 的 管理 ， 这 些 资源 既 可 以 给 Executor 运行 ， 也 
可 以 给 Driver Program 运行 。 根 据 Spark Application 的 Driver program 是 否 在 集群 资源 中 运行 ， 
Spark Application 的 运行 方式 又 可 以 分 为 Cluster 模式 和 Client 模式 ， 如 果 是 Cluster 模式 ，Spark 
会 把 Application 代码 (以 JAR 或 者 Python 定义 的 文件 并 传送 到 Worker 结 点 上 的 SparkContext ) 
发 送 到 Executor， 然 后 Driver 发 送 Task 任务 让 Executor 中 的 线程 池 运 行 。 


Worker Node 


Executor 
Driver Program 


SparkContext Cluster Manager 
Worker Node 


Executor 


K| 5-1 Spark 运行 架构 图 


fi^ Application 获取 专属 的 Executor 进程 ， 该 进程 在 Application 运行 的 过 程 中 一 直 在 内 
存 中 驻 留 ， 并 以 多 线程 方式 运行 Tasks。 这 种 Application 隔离 机 制 无 论 是 从 调度 角度 看 〈 每 
个 Driver 调度 它 上 自己 的 任务 )， 还 是 从 运行 角度 看 (来 自 不 同 Application 的 Task 运行 在 不 同 
的 JVM 中 ) 都 很 有 优势 。 当 然 ， 这 也 意味 着 Spark Application 不 能 跨 应 用 程序 共享 数据 ， 除 
非 将 数据 写 和 人 到 外 部 存储 系统 。 

对 于 潜在 的 集群 资源 管理 絮 来 说 ，Spark 是 不 可 知 的 ， 也 就 是 说 Spark 与 集群 资源 管理 
ALK, ABER Executor 进程 ， 并 能 保持 相互 之 间 的 通信 就 可 以 了 ， 即 使 是 在 文 持 其 
他 Application 的 集群 资源 管理 带 (例如 ，Mesos/Yarn) 上 运行 也 相对 简单 。 

提交 Spark Application 的 Client 应 该 靠近 Worker 结 点 (运行 Executor 的 结 点 ) ， 最 好 是 在 
同一 个 Rack ( 局域网) 里 ， 因 为 Spark Application 运行 过 程 中 Driver 和 Executor 之 间 有 大 量 的 
言 息 交 换 ; 如 果 想 在 远程 集群 中 运行 ， 最 好 使 用 RPC (Remote Procedure Call Protocol， 即 远程 
过 程 调用 协议 ) 将 Spark Application 提交 给 集群 ， 不 要 远离 Worker 运行 Spark Application, 

每 个 Driver Program 有 一 个 WebUI 监控 器 ， 一 般 是 在 4040 端口 ， 可 以 看 到 有 关 Spark 
Application 运行 的 任务 、 程 序 和 存储 空间 大 小 等 信息 。 在 浏览 器 中 输入 网 址 来 访问 : ht- 
tp: // < drivernode > : 4040。 通 过 WebUI 监控 器 可 以 方便 我 们 监控 Spark Application 在 集群 
中 的 运行 状况 。 
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Spark 的 作业 和 任务 调度 


Spark 的 作业 和 任务 调度 系统 是 Spark 的 核心 ，Spark 的 性 能 如 此 优良 的 最 重要 的 原因 就 
它 的 作业 和 任务 调度 系统 的 设计 非常 精良 和 扩展 性 好 ， 使 得 它 对 低层 到 顶层 的 各 个 模块 之 
ram FA A ARo Spark 有 多 种 运行 模式 ， 这 里 为 了 清晰 明了 的 讲 清楚 Spark 
的 调度 系统 ， 我 们 选择 Spark 上 自身 的 Standalone 模式 ， 并 且 是 Driver 运行 在 客户 端的 Client 


e 


模式 来 讲解 。 
我 们 先 通过 图 5-2 从 整体 上 对 Spark 的 作业 和 任务 调度 系统 做 一 下 分 析 : 
RDD Objects DAGScheduler TaskScheduler Worker 
(RDD X122 ) (调度 器 ) ( 任务 调度 器 ) (工作 结 点 ) 
Cluster 
manager 
Task 
——— {0 Block 
"n ç u 
rdd1 .join(rdd2) 将 图 分 解 通过 Cluster manager 执行 任务 
-groupBy(...) 为 Stages 启动 任务 
filter(...) 
构建 DAG 图 提交 Stage 重 试 启动 失败 存储 或 服务 
或 冲突 的 任务 


不 可 知 算 子 fud FLAN Stages 


| 5-2 Spark 的 作业 和 任务 调度 系统 


(1) Spark 应 用 程序 进行 各 种 RDD 的 transformation 操作 的 计算 ， 最 后 通过 RDD 的 ac- 
tion 操作 触发 Job。 图 5-2 中 的 join 操作 、groupBy 操作 和 filter 操作 都 是 transformation 操作 。 

(2) 提交 之 后 首先 根据 RDD 之 间 的 依赖 关系 构建 DAG 图 (Directed Acyclic Graph， 有 
问 无 环 图 ) ， 比 如 图 5-2 中 groupBy 操作 依赖 于 join 操作 生成 的 RDD, filter 操作 依赖 于 
groupBy 操作 生成 的 RDD， 这 种 RDD 的 依赖 关系 就 形成 了 一 个 有 癌 无 环 图 ， 即 DAG 图 。 然 
Ja DAG 图 提交 给 DAGScheduler 进行 解析 ， 就 进入 DAGScheduler 阶段 。 

(3) DAGScheduler 是 面向 Stage 的 高 层级 的 调度 器 ，DAGCScheduler 把 DAG 拆 分 成 很 多 
的 Tasks， 每 组 的 Tasks 都 是 一 个 Stage， 解 析 时 是 以 Shuffle 为 边界 反问 解析 构建 Stage 
(Stage 之 间 也 有 依赖 关系 ) ， 每 当 遇 到 Shuffle 就 会 产生 新 的 Stage， 然 后 以 一 个 个 TaskSet 
( TaskSet 等 同 于 Stage， 是 对 Stage 的 一 次 封装 ) 的 形式 提交 给 底层 调度 器 TaskScheduler, 5j 
外 DAGScheduler 需要 记录 哪些 RDD 被 存 人 位 盘 等 物化 动作 ， 同 时 要 寻求 Task 的 最 优化 调 
度 ， 例 如 数据 本 地 性 等 。DAGScheduler 还 需要 监视 因为 Shuffle 输出 导致 的 失败 ， 如 果 发 现 
这 个 Stage 失败 ， 可 能 就 要 重新 提交 该 Stage, 

(4) 一 个 TaskScheduler 只 为 一 个 SparkContext 实例 服务 ，TaskScheduler 接受 来 自 DAG- 
Scheduler 发 送 过 来 的 TaskSet, TaskScheduler 收 到 TaskSet 后 负责 把 任务 集 以 Task 的 形式 一 
个 个 分 发 到 集群 Worker 结 点 的 Executor 中 去 运行 。 如 果菜 个 Task 运行 失败 ，TaskScheduler 
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要 负责 重 试 ， 另 外 如 果 TaskScheduler 发 现 某 个 Task 一 直 示 运行 完 ， 就 可 能 局 动 同样 的 任务 
了 同一 个 Task， 哪 个 任务 先 运 行 完 束 用 哪个 任务 的 结 

(5) Executor 收 到 TaskScheduler 发 送 过 来 的 Task 后 ， 以 多 线程 的 方式 运行 ， 每 一 个 线 
程 负责 一 个 Task, Task 运行 结束 后 要 返回 给 DACScheduler， 不 同类 型 的 Task， 返 回 的 方式 
也 不 同 。ShuffleMapTask 返回 的 是 一 个 MapStatus 对 象 ， 而 不 是 结果 本 身 ; ResultTask 根据 结 
果 大 小 的 不 同 ， 返 回 的 方式 又 可 以 分 为 两 类 ， 这 个 在 下 面 的 5. 2. 5 小 节 里 再 详细 讲 。 

通过 上 面 的 五 个 步骤 ， 对 Spark 的 作业 和 任务 调度 系统 整体 上 有 了 初步 的 认识 后 ， 下 面 

我 们 结合 Spark 1. 2 的 源 代 码 一 步 步 深 入 地 分 析 其 工作 原理 和 流程 。 


Sell Spark Application 提交 


Spark Standalone 运行 模式 是 一 种 典型 的 Master - Slave 架构 ， 在 这 种 模式 下 ， 主 要 包括 
三 个 组 件 : Master, Worker, 、Driver。 这 里 我 们 指定 的 是 Driver 运行 在 客户 端的 Client 模式 。 
(1) 首先 我 们 会 在 spark 的 sbin 目录 下 使 用 “. /start - al” 脚本 来 启动 集群 : 


root@SparkMaster: /usr/lLocaL/spark/spark-1.1.0-bin-hadoop2.4/sbin# ls -lh 


Di 
一 人 


total 64K 

-rwxrwxr-x 1 rocky rocky 2.4K Oct 7 2014 

-rwxrwxr-x 1 rocky rocky 1.6K Oct 7 2014 

-rwxrwxr-X 1 rocky rocky 4.3K Oct 7 2014 

-rwxrwxr-x 1 rocky rocky 1.2K Oct 7 2014 

-rwxrwxr-X 1 rocky rocky 1.1K Oct 7 2814 = s 
-rwxrwxr-x 1 ted acrid 1.3K Oct 7 2014 a Feel spark RET 
-rwxrwxr-x 1 rocky rocky 1.5K Oct 7 2014 

-rwxrwxr-x 1 rocky rocky 1.8K Oct 7 2014 

-rwxrwxr-x 1 rocky rocky 1.1K Oct 7 2014 

-rwxrwxr-x 1 rocky rocky 2.2K Oct 7 2014 

-rwxrwxr-x 1 rocky rocky 2.0K Oct 7 2014 

-rwxrwxr-x 1 rocky rocky 1.1K Oct 7 2014 

-rwxrwxr-x 1 rocky rocky 998 Oct 7 2014 

-rwxrwxr-x 1 rocky rocky 1.1K Oct 7 2014 

-rwxrwxr-x 1 rocky rocky 1.4K Oct 7 2014 


1) FA vim 打开 start — all. sh 这 个 脚本 文件 ， 会 看 到 在 文件 里 接着 会 调用 “start - 
master. sh” FH “start — slaves. sh" 脚本 。 


# Start all spark daemons. 
# Starts the master on this node. 
# Starts a worker on each node specified in conf/slaves 


sbin= dirname "$0" 
sbin="cd "Ssbin"; pwd 


TACHYON_STR="" 


while (( "S#" )); do 
case $1 in 
--with-tachyon) 
TACHYON STRz"--with-tachyon" 


esac 
shift 
done 


# Load the Spark configuration 
. "Ssbin/spark-config.sh" 


# Start Master 2 
i t 
"Ssbin"/start-master.sh $TACHYON STR 一 -一 一 启动 master 


# Start Workers P 
llssbin"/start-slaves.sh STACHYON STR 一 -一 启动 worker 
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2) 在 start — master. sh 脚本 文件 中 ， 会 启动 org. apache. spark. deploy. Master 类 来 完成 集 
群 Master 结 点 的 启动 。 


"Ssbin/spark-config.sh" 


"SSPARK PREFIX/bin/load-spark-env.sh" > 


if [ "SSPARK MASTER PORT" = "" ]; then 
SPARK MASTER PORT-7077 
fi 


if [ "SSPARK MASTER IP" - "" ]; then 
SPARK MASTER IP- hostname 
fi 


if [ "SSPARK MASTER WEBUI PORT" - "" ]; then 


SPARK MASTER WEBUI PORT-8880 e 


fi 


"Ssbin"/spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip SSPARK MASTER IP --port SSPARK MAST 
ER PORT --webui-port SSPARK MASTER WEBUI PORT 


if [ "SSTART TACHYON" -- "true" ]; then 
"Ssbin"/../tachyon/bin/tachyon bootstrap-conf SSPARK MASTER IP 
"Ssbin"/../tachyon/bin/tachyon format -s 


; "Ssbin'"/../tachyon/bin/tachyon-start.sh master 
wi 


3) 而 在 start — slaves. sh 脚本 文件 中 会 经 过 连续 两 个 脚本 的 调用 ， 开 局 与 Master 对 应 的 
org. apache. spark. deploy. worker. Worker 类 。 


# Launch the slaves 


if [ "SSPARK WORKER INSTANCES" - "" ]; then 
exec "Ssbin/slaves.sh" cd "SSPARK HOME" \; "Ssbin/start-slave.sh" 1 spark://SSPARK MASTER IP:SSPARK MASTER P 
ORT 
else 
if [ "SSPARK WORKER WEBUI PORT" - "" ]; then 
SPARK WORKER WEBUI PORTz8881 " 3 
fi = = 全 继续 调用 start-slave.sh 脚 本 


for ((i-0; i-SSPARK WORKER INSTANCES; i++)); do 
"Ssbin/slaves.sh" cd "SSPARK HOME" V; "Ssbin/start-slave.sh" S(( $i + 1 )) spark://SSPARK MASTER IP:SSPAR 
K MASTER PORT --webui-port $(( SSPARK WORKER WEBUI PORT + $i )) 
done 
fii 


# Usage: start-slave.sh <worker#> <master-spark-URL> 
# where <master-spark-URL> is like "spark://localhost:7077" 


sbin="dirname "$0"' 


sbin-'cd "Ssbin"; pwd' 开启 Worker 类 


"Ssbin"/spark-daemon.sh start org.apache.spark.deploy.worker.Worker "SQ" 


E 


~ 


这 时 候 ，Spark 集群 的 Master 2i; Al Worker 结 点 已 经 全 部 开启 ，Worker 会 向 Master 完 
成 注册 ， 并 定时 朵 Master 发 送 心 跳 (heartbeat) , Ls H. Master 结 点 可 以 知道 该 Worker 结 点 属 
于 活跃 状态 。 关 于 Master 和 Worker 之 间 的 AKKA 通信 ,我们 会 在 5.5 小 节 讲 AKKA 通信 框 
膝 的 时 候 专 门 分 析 。 

(2) 当 我 们 在 命令 终端 用 Spark Submit 工具 向 集群 提交 Spark Application 的 时 候 ， 首 先 
会 调用 spark 的 bin 目录 下 的 spark - submit 脚本 文件 。 


rootüSparkMaster:/usr/local/spark/spark-1.1.0-bin-hadoop2.4/binft ls -lh 


total 92K 

-rwxrwxr-x 1 rocky rocky 1.1K Oct 7 2014 beeline 

-rw-rw-r-- 1 rocky rocky 5.2K Oct 7 2014 compute- Se Tanapa cmd 
-rwxrwxr-x 1 rocky rocky 6.0K Oct 7 2014 compute-classpath.sh 
-rw-rw-r-- 1 rocky rocky 1.4K Oct 7 2014 taai- -spark- -env.sh 
-rwxrwxr-x 1 rocky rocky 3.6K Oct 7 2814 

-rw-rw-r-- 1 rocky rocky 2.3K Oct 7 2814 Sonnac: cmd 
-rW-rw-r-- 1 rocky rocky 1888 Oct 7 2614 pyspark.cmd 
-rwxrwxr-x 1 rocky rocky 2.1K Oct 7 2814 run-example 
-rw-rw-r-- 1 rocky rocky 2.8K Oct 7 2014 run-example2.cmd 
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-rw-rw-r-- 1 rocky rocky 1812 Oct 7 2814 run-example.cmd 

-rwxrwxr-x 1 rocky rocky 6.3K Oct 7 2814 spark-class 

-rw-rw-r-- 1 rocky rocky 6.0K Oct 7 2014 spark-class2.cmd 

-rW-rw-r-- 1 rocky rocky 1818 Oct 7 2014 spark-class.cmd 

-rwxrwxr-x 1 rocky rocky 2.9K Oct 7 2014 spark-shell 

-rwxrwxr-x 1 rocky rocky 949 Oct 7 2814 s k-shell.cmd 

-rwxrwxr-x 1 rocky rocky 2.0K Oct 7 2814 spark-sql 

-rwxrwxr-x 1 rocky rocky 2.5K Oct 7 2014 spark-submit 一 一 提交 作业 脚本 
-rWw-rw-r-- 1 rocky rocky 2.5K Oct 7 2014 spark-submit.cmd 

-rwxrwxr-x 1 rocky rocky 2.1K Oct 7 2014 utils.sh 


1) 用 vim 打开 spark - submit 脚本 文件 ， 我 们 知道 这 个 脚本 最 终 会 启动 org. apache. spark. 
depoloy. SparkSubmit 类 。 


# For client mode, the driver will be launched in the same JVM that Launches 
it Sparksubmit, so we may need to read the properties file for any extra class 
# paths, library paths, java options and memory early on. Otherwise, it will 
# be too late by the time the driver JVM has started. 


if [[ "SSPARK SUBMIT DEPLOY MODE" -- "client" && -f "SSPARK SUBMIT PROPERTIES FILE" ]]; then 

ii Parse the properties file only if the special configs exist 

contains special configs-S( 
grep -e "spark.driver.extra*\|spark.driver.memory" "SSPARK SUBMIT PROPERTIES FILE" | X 
grep -v "^[[:space:]] **t" 

) 

if [ -n "Scontains special configs" ]; then 
export SPARK SUBMIT BOOTSTRAP DRIVER-1 


me fi 启动 SparkSubmit 
T 


exec SSPARK_HOME/bin/spark-class org.apache.spark.deploy.Sparksubmit "S{ORIG_ARGS[@]}" 


2) 在 SparkSubmit 对 象 的 main 方法 中 ， 首 先 会 获取 spark - submit 的 参数 列表 ， 根 据 参 
数列 表 创建 启动 环境 。 然 后 完成 Spark Application 的 提交 。 


def main( args; Array | String] | 
A/ 获取 spark — submit 的 附加 参数 列表 
valappArgs = new SparkSubmitArguments( args ) 
if (appArgs. verbose) | 
printStream. println ( appArgs ) 
| /创建 启动 环境 
val ( childArgs, classpath, sysProps, mainClass) = createLaunchEnv( appArgs) 
launch( childArgs, classpath, sysProps, mainClass, appArgs. verbose) 


| 


3) 我 们 打开 createLaunchEnv 方法 ， 由 于 我 们 选择 的 是 Client 模式 ， 所 以 最 终 选 择 的 
childMainClass 是 我 们 写 的 Spark 应 用 的 mainClass。 


private[ spark | defcreateLaunchEnv( args ; SparkSubmitArguments ) 
: ( Array Buffer[ String] , ArrayBuffer[ String], Map| String, String], String) = | 


// In client mode, launch the application main class directly 
// In addition, add the main application jar and any added jars (if any) to the classpath 
if (deployMode == CLIENT) | 

childMainClass = args. mainClass 

if ( isUserJar( args. primaryResource) ) | 


childClasspath += args. primaryResource 
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| 


if (args. jars ! = null) |childClasspath ++= args. jars. split(" ," ) | 
if (args. childArgs ! = null) | childArgs ++= args. childArgs | 


s e» 


4) 我 们 进入 SparkSubmit XJ 22 HJ launch 方法 ， 发 现 它 最 终 会 通过 Java 语言 的 反射 机 制 
局 动 Spark 应 用 mainClass 的 main 方法 。 


private def launch( 
childArgs : ArrayBuffer| String | , 
childClasspath ; ArrayBuffer[ String | , 
sysProps: Map| String, String | , 
childMainClass ; String , 
verbose; Boolean = false) | 
try | 
mainClass = Class. forName( childMainClass, true, loader) 
| catch | 
case e; ClassNotFoundException => 


valmainMethod = mainClass. getMethod( " main" , new Array| String | (0). getClass ) 
if ( ! Modifier. isStatic( mainMethod. getModifiers) ) | 


throw new IllegalStateException( "The main method in the given main class must be static" ) 


| 
try | // 通 过 Java 的 反射 机 制 ,启动 Spark 应 用 的 mainClass 的 main 方法 
mainMethod. invoke( null, childArgs. toArray ) 
| catch | 
case e:InvocationTargetException => e. getCause match | 
case cause: Throwable => throw cause 


case null => throw e 


| 


(3) 每 个 Spark 应 用 都 会 对 应 着 唯一 的 一 个 SparkContext， 当 调用 mainClass 的 main 77 
法 时 ， 也 完成 了 SparkContext 的 初始 化 。SparkContext 是 Spark 应 用 创建 时 的 上 下 文 对 象 ， 是 
一 个 重要 的 入 口 类 ， 在 其 内 部 会 进行 一 系列 的 重要 操作 ， 其 中 最 重要 的 是 创建 TaskScheduler 
和 DAGScheduler 实例 。 

1) 创建 SparkConf 对 象 来 管理 spark 应 用 的 属性 设置 。SparkConf 类 比较 简单 ， 是 通过 一 
个 HashMap 容器 来 管理 key/value 类 型 的 属性 。 
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classSparkConf( loadDefaults; Boolean) extends Cloneable with Logging | 
importSparkConf. _ 


/ *** Create aSparkConf that loads defaults from system properties and the classpath * / 
def this( ) = this( true) 

// 通 过 一 个 HashMap 容器 来 管理 key/value 类 型 的 属性 
private| spark | val settings = newHashMap| String, String | () 


2) 在 SparkContext 类 中 对 于 创建 的 SparkConf 会 进行 验证 和 克隆 ， 一 旦 SparkConf 的 设 
置 最 终 确定 ， 在 Spark 程序 运行 时 是 不 会 改动 的 。 


private| spark | val conf = config. clone( ) //Xf SparkConf 进行 clone。 
conf. validateSettings( ) /对 conf 进行 验证 


/ 米 米 


* Return a copy of thisSparkContext's configuration. The configuration " cannot" be 


* changed at runtime. 
* / 
defgetConf ; SparkConf = conf. clone( ) 


3) 在 SparkContext 类 中 创建 LiveListenerBus Ws Urs o 


// An asynchronous listener bus for Spark events 


private[ spark ] vallistenerBus = new LiveListenerBus 


这 是 典型 的 观察 者 模式 (如 图 5-3 HZR), SparkListener [5] LiveListenerBus 类 注册 不 同 
类 型 的 SparkListenerEvent 事件 ，SparkListenerBus 会 遍历 它 的 所 有 监听 者 SparkListener ， 然 后 
找 出 事件 对 应 的 接口 进行 响应 。 

4) 创建 SparkEnv 运行 环境 。SparkEnv 类 用 于 封装 所 有 Spark 运行 时 的 环境 对 象 , 如 Se- 
rializer, ActorSystem, BlockManager, MapOutputTrackerMasterActor, HttpFileServer 等 一 系列 
对 象 。 


// Create the Spark execution environment (cache, map output tracker, etc ) 
private| spark | valenv = SparkEnv. createDriverEnv( conf, isLocal, listenerBus) 


SparkEnv. set( env) 


5) 创建 SparkUI。 通 过 SparkUl 方便 我 们 观察 Spark 集群 的 运行 情况 和 Spark 应 用 运行 
时 的 状况 。 


// Initialize the Spark UI 
private[ spark | val ui; Option| SparkUI | = 
if (conf. getBoolean( " spark. ui. enabled" , true) ) | 


Some( SparkUL. createLiveUI( this, conf, listenerBus, jobProgressListener , 
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env. securityManager,appName ) ) 
| else | 


// For tests, do not enable the UI 


None > 
| 
SparkListenerBus SparkListener 


sparkListeners=new 

ArrayBuffer[SperkListener] 

addListener(listener: SperkListener) onJobStart() 
onEnvironmentUpdate 

postToAll(event: SparkListenerEvent) obApolicationstartt) 0 


V V 
EventLoggingListener ApplicationEventListener 


V 


LiveListenerBus 


eventQueue-new 

LinkedBlockingQueue[SperkListenerEvent] SparkListenerEvent 
post(event: SparkListenerEvent) 

start() 


V 


V 
SparkListenerA pplicationStart SparkListenerEnvironmentUpdate 


图 5-3 ”观察 者 模式 


6) 在 SparkUI 对 象 initialize( ) 方法 中 ，attachTab 方法 中 褒 加 的 对 象 正 是 我 们 在 Spark 
Web 页 面 中 看 到 的 那些 标签 。 


/ ** Initialize all components of the server. */ 
def initialize( ) | 
attachTab( new JobsTab( this) ) 
val stagesTab = new StagesTab( this ) 
attachTab( stagesTab ) 
attachTab( new StorageTab( this) ) 
attachTab( new EnvironmentTab( this ) ) 
attachTab( new ExecutorsTab( this ) ) 
attachHandler( createStaticHandler( SparkUI. STATIC. RESOURCE DIR, " /static" ) ) 
attachHandler( createRedirectHandler( " /" , "/jobs" , basePath = basePath ) ) 
attachHandler( 
createRedirectHandler( " /stages/stage/kill" , " /stages" ,stagesTab. handleKillRequest ) ) 
// If the UI is live, then serve 


sc. foreach | _. env. metricsSystem. getServletHandlers. foreach( attachHandler) | 


p 
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7) 在 SparkUI 的 create 方法 中 ， 注 册 了 JobProgressListener 监听 器 ， 负 责 监 听 Job 运行 时 
的 变化 及 时 地 展示 到 Sparkweb 页 面 上 。 


private def create( 
sc : Option| SparkContext | , 
conf: SparkConf , 
listenerBus : SparkListenerBus , 
security Manager ; SecurityManager , 
appName; String, 
basePath; String 2 "" , 
jobProgressListener ; Option[ JobProgressListener | = None) : SparkUI = | 
// 创 建 JobProgressListener 监听 器 
val _jobProgressListener:JobProgressListener = jobProgressListener. getOrElse | 
val listener = newJobProgressListener ( conf) 
listenerBus. addListener( listener) — //1EJJf JobProgressListener WT 


listener 


valenvironmentListener 2 new EnvironmentListener 
val storageStatusListener = new StorageStatusListener 
valexecutorsListener = new ExecutorsListener( storageStatus Listener ) 


valstorageListener = new StorageListener( storageStatusListener ) 


listenerBus. addListener( environmentListener ) 
listenerBus. addListener( storageStatusListener ) 
listenerBus. addListener( executorsListener ) 


listenerBus. addListener( storageListener ) 


newSparkUl( sc, conf, securityManager, environmentListener, storageStatusListener , 


executorsListener, _jobProgressListener, storageListener, appName, basePath) 


| 


8) 添加 EventLoggingListener 监听 器 ， 这 个 默认 是 关闭 的 ， 可 以 通过 spark. eventLog. enabled 
配置 开启 。 它 主要 功能 是 以 json 格式 记录 发 生 的 事件 。 


private[ spark] valeventLogger : Option| EventLoggingListener | = | 
if (isEventLogEnabled) | 
val logger = 
new EventLoggingListener( applicationId , eventLogDir. get, conf, hadoopConfiguration ) 
logger. start( ) 
listenerBus. addListener( logger ) 
Some( logger) 


| else None 
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9) 加 入 SparkListenerEvent 事件 。 往 LiveListenerBus 中 加 入 了 SparkListenerEnvironmen- 
tUpdate SparkListenerApplicationStart 两 类 事件 ， 对 这 两 种 事件 监听 的 监听 器 就 会 调用 onEn- 
vironmentUpdate 、onApplicationStart 方法 进行 处 理 。 


/ ** Post the environment update event once the task scheduler is ready * / > 
private def postEnvironmentUpdate( ) | 
if (taskScheduler ! = null) | 

valschedulingMode = getSchedulingMode. toString 

valaddedJarPaths = addedJars. keys. toSeq 

valaddedFilePaths = addedFiles. keys. toSeq 

valenvironmentDetails = 

SparkEnv. environmentDetails( conf, schedulingMode, addedJarPaths , addedFilePaths ) 
valenvironmentUpdate = SparkListenerEnvironmentUpdate ( environmentDetails ) 


listenerBus. post( environmentUpdate ) 


/ xx Post the application start event * / 
private def postApplicationStart( ) | 
// Note:this code assumes that the task scheduler has been initialized and has contacted 
// the cluster manager to get an application ID ( in case the cluster manager provides one). 
listenerBus. post( SparkListenerApplicationStart( appName, Some( applicationld ) , 
startl'ime, sparkUser) ) 


| 
10) 创建 了 TaskScheduler 和 DAGScheduler Ji] EE $3 o 


// Create and start the scheduler 
private| spark | var ( schedulerBackend, taskScheduler) = 
SparkContext. createTaskScheduler( this, master) 
private valheartbeatReceiver = env. actorSystem. actorOf( 
Props ( newHeartbeatReceiver( taskScheduler) ) , " HeartbeatReceiver" ) 
@ volatile private[ spark | vardagScheduler ; DAGScheduler = _ 
try | 
dagScheduler = new DAGScheduler( this) 
| catch | 
case e: Exception => throw 


newSparkException ( " DAGScheduler cannot be initialized due to 96 s". format( e. getMessage ) ) 


| 


11) TaskScheduler 是 通过 不 同 的 SchedulerBackend 来 调度 和 管理 任务 ， 它 包含 资源 分 配 
和 任务 调度 。 它 实现 了 FIFO 调度 和 FAIR 调度 ， 基 于 此 来 决定 不 同 jobs 之 间 的 调度 顺序 。 
在 SparkContext 的 createTaskScheduler 方法 中 ， 会 根据 不 同 的 部 署 方式 选择 不 同 的 Scheduler- 
Backend。 我 们 这 里 的 master 选取 的 是 Spark Standalone 运行 模式 ， 模 式 匹 配对 应 的 是 
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"SPARK | REGEX (sparkUrl)”， 首 先 这 里 的 scheduler 是 TaskScheduler 的 实现 子 类 Task- 
SchedulerImpl, schedulerbackend 选择 的 是 SparkDeploySchedulerBackend, ， 它 是 CoarseGrained- 
SchedulerBackend 的 子 类 。 


case SPARK_RECEX(sparkUrl) => 
val scheduler = newTaskSchedulerImpl( sc ) 
valmasterUrls = sparkUrl. split(" ," ). map("spark://" +_) 
val backend = new SparkDeploySchedulerBackend ( scheduler, sc ,masterUrls ) 


scheduler. initialize( backend ) 


( backend, scheduler) 


(4) SparkDeploySchedulerBackend 是 Standalone 模式 下 的 SchedulerBackend。 它 装备 好 局 
动 Executor 的 必要 参数 后 创建 AppClient， 可 以 向 Standalone 的 Master 注册 Application, ， 然 后 
Master 会 通过 Application 的 信息 为 它 分 配 Worker， 包括 每 个 worker 上 使 用 CPU core 的 数 
目 等 。 

1) 在 SparkContext 初始 化 的 过 程 中 ，TaskSchedulerImpl 的 start 方法 也 被 调用 。 打 开 
TaskScheduler 的 start 方法 我 们 看 到 它 会 继续 调用 SparkDeployScheduleBackend 的 start 方法 。 


override def start( ) | 
// 这 里 的 backend 是 SparkDeploySchedulerBackend 
backend. start( ) 
if (| isLocal && conf. getBoolean( " spark. speculation" , false) ) | 
logInfo( " Starting speculative execution thread" ) 
import sc. env. actorSystem. dispatcher 
sc. env. actorSystem. scheduler. schedule( SPECULATION INTERVAL milliseconds , 
SPECULATION INTERVAL milliseconds) | 
Utils. tryOrExit | checkSpeculatableTasks( ) | 


| 


2) 在 SparkDeploySchedulerBackend 的 start 方法 中 ， 会 初始 化 Appclient 类 ， 完 成 Spark 
应 用 加 Master 的 注册 。 


override def start( ) | 
super. start( ) //3&] A CoarseGrainedSchedulerBackend 的 start( ) 771; 


// The endpoint for executors to talk to us 
valdriverUrl = " akka. tep://% s@ 96 s:% s/user/% s" . format ( 
SparkEnv. driverActorSystemName , 
conf. get( " spark. driver. host" ) , 
conf. get( " spark. driver. port" ) , 
CoarseGrainedSchedulerBackend. ACTOR, NAME) 
val args = Seq( driverUrl, " | | EXECUTOR. ID) j", "I| HOSTNAME| j|", "|| CORES| |", " 
| (APP IDJ j", 
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"IL WORKER, URL | |") 
valextraJavaOpts = sc. conf. getOption( " spark. executor. extraJava Options" ) 

. map( Utils. splitCommandString ). getOrElse( Seq. empty ) 
valclassPathEntries = sc. conf. getOption( " spark. executor. extraClassPath" ). toSeq. flatMap | cp => 

cp. split( java. io. File. pathSeparator ) e 
| 
vallibraryPathEntries = 

sc. conf. getOption( " spark. executor. extraLibraryPath" ). toSeq. flatMap | cp => 

cp. split( java. io. File. pathSeparator ) 


// Start executors with a few necessaryconfigs for registering with the scheduler 

valsparkJavaOpts = Utils. sparkJavaOpts( conf, SparkConf. isExecutorStartupConf) 

valjavaOpts = sparkJavaOpts ++ extraJavaOpts 

val command = Command (" org. apache. spark. executor. CoarseGrainedExecutorBackend" , 
args, sc. executorEnvs, classPathEntries, libraryPathEntries , javaOpts ) 

valappUlAddress = sc. ui. map( _. appUlAddress). getOrElse( " " ) 

// 包 含 了 向 Master 注册 的 Application 的 所 有 信息 

valappDesc = new ApplicationDescription( sc. appName, maxCores, sc. executorMemory , command, 
appUlAddress, sc. eventLogDir) 

// 初 始 化 AppClient ,完成 Application 向 Master 的 注册 

client = newAppClient( sc. env. actorSystem, masters, appDesc, this, conf) 


client. start( ) 


waitForhegistration( ) 


| 
(5) AppClient [n] Master 提交 Application; 
1) AppClient 是 Application 和 Master 交互 的 接口 。 它 包含 类 型 为 org. apache. spark. 
deploy. client. AppClient. ClientActor 的 成 员 变 量 actor。 它 负责 了 与 Master 的 交互 。 当 
AppClient 调用 start 方法 后 ， 会 启动 一 个 ClientActor。 


def start( ) | 


// Just launch an actor; it will call back into the listener. 


actor = actorSystem. actorOf( Props( new ClientActor) ) 


| 


2) ClientActor 首先 疝 Master 注册 Application。 如 果 超 过 20s 没有 接收 到 注册 成 功 的 消 
县 ， 那 么 会 重新 注册 ; 如 果 重 试 超过 3 次 仍 未 成 功 ， 那 么 本 次 提交 就 以 失败 结束 了 。 


override defpreStart( ) | 


context. system. eventStream. subscribe( self, classOf[ RemotingLifecycleEvent | ) 
try | 

register WithMaster( ) 
| catch | 


case e; Exception => 


logWarning( " Failed to connect to master" , e) 
markDisconnected ( ) 


context. stop( self) 


def tryRegisterAllMasters( ) | 
for (masterUrl <- masterUrls) | 
logInfo( " Connecting to master " + masterUrl +"... " ) 
val actor = context. actorSelection ( Master. toAkkaUrl( masterUrl ) ) 


//{ti] Master / 3 Spark 应 用 的 注册 信息 


actor | RegisterApplication( appDescription ) 


defregisterWithMaster( ) | 
tryRegisterAllMasters( ) 
import context. dispatcher 
var retries =0 
registrationRetryTimer = Some | 
// WIR 20s 内 未 收 到 注册 成 功 的 信息 , 则 重 试 
context. system. scheduler. schedule( REGISTRATION_TIMEOUT, REGISTRATION_TIMEOUT) | 
Utils. tryOrExit | 
retries += 1 
if (registered) | /如 果 注 册 成 功 了 ,取消 注册 
registrationRetryTimer. foreach( _. cancel( ) ) 
| else if (retries >= REGISTRATION_RETRIES) | 
// 如 果 重 试 次 数 超过 了 指定 次 数 , 则 认为 集群 不 能 正常 工作 ,取消 注册 


markDead( " All masters are unresponsive! Giving up. " ) 


| else | 


tryRegisterAllMasters( ) /重新 党 试 注册 


| 


3) 如 果 Application 注册 成 功 ，ClientActor 的 receiveWithLogging 方法 (消息 循环 系统 ) 
会 受到 来 自 Master 发 送 的 RegisteredApplication 信息 ， 并 进行 处 理 。 
override defreceiveWithLogging = | 


case RegisteredApplication( appld_, masterUrl) => 
appld = appld . 
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registered = true 
changeMaster( masterUrl ) 


listener. connected( appld ) 


Qu > 


(6) Master 接收 到 AppClient 的 registerApplication 的 请 求 后 ， 处 理 逻 辑 如 下 : 
1) Master 接受 到 ClientActor 发 送 的 Application 注册 信息 后 ， 会 调用 scheduler 方法 为 待 
分 配 的 Application 分 配 资源 ， 在 每 次 有 新 的 Application 加 入 时 都 会 调用 scheduler 方法 。 
case RegisterApplication( description) => | 


if (state == RecoveryState. STANDBY) | 


// ignore, don't send response 


else | 


" + description. name ) 


logInfo( " Registering app 
val app = createApplication( description, sender) 
registerA pplication( app) 


" 


logInfo( " Registered app " + description. name +" with ID " + app. id) 


persistenceEngine. addApplication( app ) 

// 持 久 化 Application 的 元 数据 信息 

sender | RegisteredApplication( app. id , masterUrl ) 

// 为 处 于 待 分 配 资源 的 Application 分 配 资源 ,在 每 次 有 新 的 Application 加 入 时 都 会 
// 调 用 Scheduler 进行 调度 

schedule( ) 


| 


2) 在 scheduler 方法 这 种 为 Application 分 配 资 源 选 择 worker (executor) 有 两 种 策略 : 

第 一 是 尽量 的 “ 打 散 ”， 即 一 个 Application 尺 可 能 多 的 分 配 到 不 同 的 结 点 。 这 个 可 以 通 
过 设置 spark. deploy. spreadOut 来 实现 。 默 认 值 为 tue， 即 尽量 的 打 散 ; 第 二 是 尽量 的 集中 ， 
即 一 个 Application 尽量 分 配 到 尺 可 能 少 的 结 点 。 对 于 同一 个 Application ， 它 在 一 个 worker 上 
只 能 拥有 一 个 executor， 当 然 了 ， 这 个 executor 可 能 拥有 多 于 1 个 core。 对 于 第 一 种 策略 ， 任 
务 的 部 署 会 慢 于 第 二 种 策略 ， 但 是 GC (Garbage Collection) 的 时 间 会 更 快 。 其 主要 逻辑 
如 下 : 


// 尽 量 打 散 单个 结 点 的 负载 ,如 有 可 能 为 每 个 Executor 分 配 一 个 Core 
if (spreadOutApps) | 

// Try to spread out each app among all the nodes, until it has all its cores 
// f JH FIFO 方式 为 等 待 的 Appleation 分 配 资源 

for (app <- waitingApps if app. coresLeft > 0) | 
[可 用 的 Worker 标准 是 :state 是 alive, 可 用 内 存 满足 在 可 用 的 Worker 内 存 之 中 ,优先 选择 可 用 
Worker 数 多 的 

valusableWorkers = workers. toArray. filter( . state == WorkerState. ALIVE) 


. filter( canUse( app, _) ). sortBy(  . coresFree). reverse 
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valnumUsable = usableWorkers. length 
val assigned = new Array| Int | ( numUsable) // Number of cores to give on each node 
vartoAssign = math. min( app. coresLeft, usableWorkers. map( . coresFree). sum) 
var pos 20 
while (toAssign > 0) | 
if ( usableWorkers( pos). coresFree — assigned(pos) > 0) | 
toAssign -= 1 
assigned( pos) += 1 
| 
pos = (pos +1) % numUsable 
| 
// Now that we've decided how many cores to give on each node, let's actually give them 
for (pos «- 0 untilnumUsable) | 
if (assigned(pos) » 0) | 
val exec = app. addExecutor( usableWorkers( pos) , assigned( pos) ) 
// 在 可 用 的 Worker 结 点 上 启动 Executor 
launchExecutor( usableWorkers( pos) , exec) 
app. state = ApplicationState. RUNNING 
| 


| 
| else | ”// 尽 可 能 多 地 利用 Worker 的 core 
// Pack each app into as few nodes as possible until we've assigned all its cores 
for (worker <- workers if worker. coresFree > 0 && worker. state == WorkerState. ALIVE) | 
for (app <- waitingApps if app. coresLeft > 0) | 
if (canUse( app, worker) ) | 
valcoresToUse = math. min( worker. coresFree , app. coresLeft ) 
if (coresToUse > 0) | 
val exec = app. addExecutor( worker, coresToUse ) 
launchExecutor( worker, exec ) 


app. state = ApplicationState. RUNNING 
| 


| 


3) 在 选择 了 worker 和 确定 了 worker 上 的 executor 需要 的 CPU core 数 后 ，Master 会 调用 
launchExecutor (worker; Workerlnfo, exec; ExecutorInfo) j] Worker 发 送 请 求 ， 向 AppClient 
发 送 executor 已 经 添加 的 消息 。 同 时 会 更 新 master 保存 的 worker 的 信息 ， 包 括 增加 executor, 
减少 可 用 的 CPU core 数 和 memory 数 。 Master 不 会 等 到 真正 在 worker 上 成 功 启 动 executor 后 
再 更 新 worker 的 信息 。 如 果 worker 局 动 executor 失败 ， 那 么 它 会 发 送 FAILED 的 消息 给 Mas- 
ter, Master 收 到 该 消息 时 再 次 更 新 worker 的 信息 即 可 。 这 样 是 简化 了 人 逻辑 。 
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deflaunchExecutor( worker; WorkerInfo, exec: ExecutorInfo) | 


logInfo( " Launching executor " + exec. fullld +" on worker " + worker. id) 


// 更 新 Worker 的 信息 ,可 用 内 存 和 core 的 数量 要 减 去 此 次 分 配 Executor 所 使 用 的 数量 


worker. addExecutor( exec ) > 


worker. actor | LaunchExecutor( masterUrl , 
exec. application. id, exec. id, exec. application. desc, exec. cores, exec. memory ) 
// E AppClient Rik Eexcutor 添加 的 信息 
exec. application. driver ! ExecutorAdded( 


exec. id, worker. id, worker. hostPort, exec. cores, exec. memory ) 


| 


(7) Worker 根据 Master 的 资源 分 配 结果 来 创建 Executor, 

1) Worker 接收 到 来 自 Master 的 LaunchExecutor 的 消息 后 ， 会 创建 org. apache. spark. deploy. 
worker. ExecutorRunner, Worker 本 和 刁 会 记录 本 号 资源 的 使 用 情况 ,包括 已 经 使 用 的 CPU core 
数 ，memory 数 等 ; 但 是 这 个 统计 只 是 为 了 web UI 的 展现 。Master 本 身 会 记录 Worker 的 资源 
使 用 情况 ， 无 需 Worker 目 吴 汇报 。Worker 与 Master 之 间 传 送 的 心跳 的 目的 仅仅 是 为 了 汇报 
自己 处 于 活跃 状态 ， 不 会 携带 其 他 的 信息 。 


caseLaunchExecutor( masterUrl, appld, execld, appDesc, cores_, memory_) => 
if (masterUrl ! = activeMasterUrl) | 
logWarning( " Invalid Master (" + masterUrl +" ) attempted to launch executor. " ) 
| else | 
try | 
logInfo( " Asked to launch executor 96 s/96 d for 96s". format( appld, execId, appDesc. name) ) 


// Create the executor's working directory 
valexecutorDir = new File( workDir, appld  "/" + execld) 
if ( ! executorDir. mkdirs( ) ) | 


throw newIOException( " Failed to create directory " + executorDir ) 


| 
// 初 始 化 ExecutorRunner , ExecutorRunner 主要 用 来 管理 Executor 的 执行 情况 ， 
目前 只 存在 于 Standalone 模式 下 
val manager = newExecutorRunner( appld, execld, appDesc, cores_, memory, , 
self, workerld, host, sparkHome, executorDir, akkaUrl, conf, ExecutorState. LOADING) 
executors( appld + " /" + execld) = manager 
manager. start ( ) 
coresUsed += cores . 
memoryUsed += memory. 
master ! ExecutorStateChanged( appld, execld, manager. state, None, None) 
| catch | 
case e; Exception => | 
logError( s" Failed to launch executor $appld/ $execld for $ | appDesc. name]. " , e) 


if (executors. contains( appld + "/" + execld) ) | 


p 
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executors( appld + " /" + execld). kill( ) 


executors —=appld+"/" + execld 


| 
master | ExecutorStateChanged( appld, execld, ExecutorState. FAILED, 
Some( e. toString) , None) 


| 


2) 接 下 来 就 启动 org. apache. spark. deploy. ApplicationDescription 中 携带 的 org. apache. spark. 
executor. CoarseGrainedExecutorBackend, CoarseGrainedExecutorBackend 启动 后 ,会 首先 通过 传人 的 
driverUrl 这 个 参数 向 在 org. apache. spark. scheduler. cluster. CoarseGrainedSchedulerBackend; : 
DriverActor 发 送 RegisterExecutor (executorld, hostPort, cores), DriverActor 会 回复 RegisteredEx- 


ecutor， 此 时 CoarseGrainedExecutorBackend 会 创建 一 个 org. apache. spark. executor. Executor, Æ 
I, Executor 创建 完毕 。 


/ 5k 
* Download and run the executor described in our ApplicationDescription 
*/ 
deffetchAndRunExecutor( ) | 
try | 
// Launch the process 
val builder = CommandUtils. buildProcessBuilder( appDesc. command, memory, 
sparkHome. getAbsolutePath, substitute Variables ) 
val command - builder. command( ) 


logInfo( " Launch command ;" + command. mkString( " V'" , "Vr rm, nnm)» 


builder. directory ( executorDir) 

// In case we are running this from within the Spark Shell, avoid creating a "scala" 
// parent process for the executor command 

builder. environment. put( " SPARK LAUNCH, WITH, SCALA" , "0") 

process = builder. start( ) 

val header = "Spark Executor Command: 96 s\n% s\n\n". format ( 


command. mkString ( " XM " s " \" \" " ; " \" " ) : " = " * 40) 


// Redirect its stdout andstderr to files 
val stdout = new File( executorDir, "stdout" ) 


stdoutAppender = FileAppender( process. getInputStream, stdout, conf) 


valstderr = new File( executorDir, "stderr" ) 
Files. write( header stderr, UTF_8 ) 
stderrAppender = FileAppender( process. getErrorStream, stderr, conf) 


第 5 章 Spark 的 运行 机 制 


// Wait for it to exit; executor may exit with code 0 ( when driver instructs it to shutdown) 

// or with nonzero exit code 

valexitCode = process. waitFor( ) 

state = ExecutorState. EXITED > 
val message = " Command exited with code " + exitCode 


worker | ExecutorStateChanged( appld, execld, state, Some( message) , Some( exitCode) ) 


“YEW (Job) 8% 


Spark 应 用 程序 由 driver program 和 在 Executor 内 执行 的 代码 两 部 分 组 成 ，Spark 的 作业 
调度 主要 说 的 就 是 这 些 基 于 RDD 的 一 系列 操作 算 子 构成 一 个 Job ， 然 后 在 Executor 中 执行 。 
这 些 操作 算 子 主要 分 为 transformation 算 子 和 action 算 子 ， 对 于 transform 算 子 的 计算 是 lazy 级 
别 的 ， 也 就 是 延迟 执行 ， 只 有 出 现 了 action 算 子 才 触 发 Job 的 提交 。 这 里 我 们 以 最 经 典 的 
wordeount (单词 计数 ) 为 例 并 结合 Spark 1.2 的 源 代码 来 分 析 一 下 作业 的 提交 (下面 两 行 代 
码 可 以 看 作 是 wordeount 的 伪 代 码 ， 首 先是 从 HDFS 文件 系统 中 加 载 README. md 文件 生成 
一 个 MappedRDD ， 然 后 使 用 flatMap 、map 、reduceByKey 一 系列 Transformation 操作 ， 最 后 调 
用 RDD 的 count 方法 完成 README. md 文件 的 单词 计数 ) 。 


val line = sc. textFile( “ hdfs ://SparkMaster ;9000/data/ README. md” ) 


valwordcount = line. flatMap(_. split( ^ ") ). map(x => (x,1)). reduceByKey(_ + _). count 


(1) 这 个 Job 的 真正 执行 是 从 RDD 的 count 方法 这 个 action 算 子 出 现 开 始 的 。 我 们 打开 
RDD 这 个 抽象 类 的 源码 ， 由 RDD 的 count 方法 触发 了 SparkContext 的 runJob 方法 来 提交 作 
业 。 我 们 可 以 看 到 对 于 Spark 作业 的 提交 是 在 其 内 部 隐 性 调用 runob 方法 进行 的 ， 对 于 用 户 
来 说 ， 不 用 显 性 地 去 提交 作业 。 

/ ** 


* Return the number of elements in the RDD. 


* / 


def count( ) : Long = sc. runJob( this, Utils. getIteratorSize _). sum 


(2) 对 于 RDD 来 说 ， 它 们 会 根据 彼此 之 间 的 依赖 关系 形成 一 个 有 回 无 环 图 (DAG), 
然后 就 是 把 这 个 DAG 图 交 给 DAGScheduler 来 处 理 ， 从 源 代码 的 层面 来 看 ，SparkContext 的 
runJob 方法 经 过 几 次 回调 后 会 调用 DAGScheduler 的 runJob 方法 ， 这 时 候 作 业 提 交 进 入 了 
DAGScheduler 的 处 理 阶 段 。 


def runJob| T, U:ClassTag | ( 
rdd: RDD| T], 
func; ( TaskContext, Iterator, T]) => U, 


partitions ; Seq| Int], 
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allowLocal : Boolean , 
resultHandler; (Int, U) => Unit) | 
if (dagScheduler == null) | 
throw newSparkException( " SparkContext has been shutdown" ) 


| 
valcallSite = getCallSite 
valcleanedFunc = clean( func ) 
logInfo( " Starting job:" + callSite. shortForm ) 
// Wil FA DAGScheduler 的 runJob 方法 。 
dagScheduler. runJob( rdd, cleanedFunc, partitions, callSite, allowLocal, 
resultHandler, localProperties. get) 
progressBar. foreach(_. finishAll( ) ) 
rdd. doCheckpoint( ) 
| 


(3) 在 Spark 程序 中 ， 可 以 存在 多 个 Job， 而 且 这 些 Job 之 间 可 以 没有 任何 依赖 关系 ， 
对 于 多 个 Job 之 间 的 调度 ，Spark 目前 提供 了 两 种 调度 策略 : 一 种 是 FIFO (先进 先 出 ) PE 
式 ， 这 也 是 目前 默认 的 模式 ; 为 一 种 是 FAIR 模式 ，FAIR 模式 的 调度 可 以 通过 两 个 参数 的 
配置 来 决定 Job 执行 的 优先 模式 ， 两 个 参数 分 别 是 minShare (最 小 任务 数 )、weight (任务 的 
权重 ) 。 如 果 你 的 Spark 应 用 是 通过 服务 的 形式 ， 为 多 个 用 户 提交 作业 的 话 ， 那 么 可 以 通过 
配置 Fair 模式 相关 参数 来 调整 不 同 用 户 作 业 的 调度 和 资源 分 配 优先 级 。 在 TaskSchedulerImpl 
的 initialize 方法 中 先 实 现 了 对 rootPool 根 调 度 池 的 初始 化 ， 随 后 跟 进 SchedulableMode 的 匹配 
方式 建立 了 SchedulableBuilder 对 象 ， 具 体 的 调度 是 由 SchedulableBuilder 的 buildPools 方法 来 
实现 的 。 


def initialize ( backend; SchedulerBackend) | 
this. backend = backend 
// temporarily setrootPool name to empty 
rootPool = new Pool("" , schedulingMode, 0, 0) 
schedulableBuilder = | 
schedulingMode match | /根据 调度 模式 配置 调度 池 
caseSchedulingMode. FIFO => 
new FIFOSchedulableBuilder( rootPool ) 
caseSchedulingMode. FAIR => 
new FairSchedulableBuilder( rootPool, conf) 


| 
schedulableBuilder. buildPools( ) 


| 


在 以 上 的 SparkContext 的 runJob 方法 里 ， 调 用 了 DAGScheduler 的 runJob 方法 ， 下 面 我 
们 进入 DAGScheduler 类 来 查看 它 的 runJob 方法 的 具体 实现 。 
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s". DAGScheduler 划分 Stage 并 提交 | 


DAGScheduler 是 面向 Stage AY FE 4 dal E de, fü be ee Spark 应 用 提交 的 Job, FF AR TE 
RDD 的 依赖 关系 划分 Stage， 并 提交 Stage 给 TaskScheduler 调度 器 。 下 面 我 们 继续 看 DAG- 
Scheduler 的 源码 实现 。 ze 
(1) 在 DAGScheduler 类 内 部 会 进行 一 系列 的 方法 调用 ， 首 先是 在 runJob 方法 里 ， 调 用 
submitJob 方法 来 继续 提交 作业 ， 这 里 会 发 生 阻塞 ， 直 到 返回 作业 完成 或 失败 的 结 
二 
rdd: RDD| T], 
func; ( TaskContext, Iterator, T]) => U, 


partitions ; Seq| Int], 

callSite ; CallSite , 

allowLocal ; Boolean , 

resultHandler: (Int, U) => Unit, 


properties ; Properties = null) 


val start = System. nanoTime 
// 调 用 submitJob 方法 来 提交 作业 ,这 里 会 发 生 阻 塞 ,等 待 作业 完成 或 失败 的 结 
val waiter = submitJob( rdd, func, partitions, callSite, allowLocal, resultHandler, properties ) 
waiter. awaitResult( ) match | 
caseJobSucceeded => | 
logInfo( " Job 96 d finished: %s, took % fs". format 
( waiter. jobld, callSite. shortForm, (System. nanoTime - start) / 1e9) ) 
| 
caseJobFailed( exception; Exception) => 
logInfo( " Job 96 d failed:% s, took %f s". format 
( waiter. jobld, callSite. shortForm, (System. nanoTime — start) / 1e9) ) 


throw exception 


| 


(2) fEsubmitJob 方法 里 ， 最 重要 的 是 创建 了 一 个 JobWaiter 对 象 ， 并 借助 AKKA 通信 把 
这 个 对 象 发 送 给 DAGScheduler 的 内 艇 类 eventProcessActor 进行 处 理 。 


def submitJob| T, U]( 
rdd; RDD[ T], 
func; ( TaskContext, Iterator, T]) => U, 
partitions ; Seq| Int], 
callSite ; CallSite , 
allowLocal : Boolean , 


resultHandler: (Int, U) => Unit, 


> 
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properties :Properties = null) :JobWaiter[ U] = 


// Check to make sure we are not launching a task on a partition that does not exist. 
valmaxPartitions = rdd. partitions. length 
partitions. find(p => p >=maxPartitions | | p <0). foreach | p => 
throw new IllegalArgumentException ( 
" Attempting to access a non — existent partition;" +p+". ”十 


"Total number of partitions;" + maxPartitions ) 


valjobld = nextJobld. getAndIncrement( ) 
if (partitions. size == 0) | 


return newJobWaiter| U | (this, jobId, 0, resultHandler) 


assert (partitions. size > 0) 
valfunc2 = func. asInstanceOf| ( TaskContext, Iterator| _]) => _ | 
val waiter = newJobWaiter( this, jobld, partitions. size, resultHandler ) 
// 创 建 JobSubmitted 对 象 并 发 送 消息 到 DAGScheduler 的 Actor, 这 个 Actor 指 的 是 //DAGSchedul- 
erEventProcessActor 
eventProcessActor ! JobSubmitted( 
jobld, rdd, func2, partitions. toArray, allowLocal, callSite, waiter, properties ) 


waiter 


| 
(3) 由 eventProcessActor 的 初始 化 ， 我 们 知道 这 个 类 实际 上 指 的 是 DAGSchedulerEvent- 


ProcessActor 。 


private def initializeEventProcessActor( ) | 
// blocking the thread until supervisor is started, which ensureseventProcessActor is 
// not null before any job is submitted 
implicit val timeout = Timeout(30 seconds ) 
valinitEventActorReply = 
dagSchedulerActorSupervisor ? Props( new DAGSchedulerEventProcessA ctor( this) ) 
/ / eventProcessActor 的 初始 化 
eventProcessActor = Await. result( initEventActorReply , timeout. duration ) 


asInstanceOf[ ActorRef | 
| 


(4) 在 DAGSchedulerEventProcessActor 的 消息 接受 方法 receive 方法 中 ， 对 接受 到 JobSub- 
mitted 样 例 类 完成 模式 匹配 后 ， 继 续 调 用 DAGScheduler 的 handleJobSubmitted 方法 来 提交 作业 。 


def receive = | 
case JobSubmitted( jobId, rdd, func, partitions, allowLocal, callSite, listener, properties) => 
dagScheduler. handleJobSubmitted( jobId, rdd, func, partitions, allowLocal, callSite, 
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listener, properties ) 


(5) handleJobSubmitted 方法 是 个 很 关键 的 方法 ,在 其 内 部 会 根据 finalRDD 构建 一 个 > 
Stage ， 这 也 意味 着 开始 了 Stage 的 划分 ， 最 后 调用 submitStage 方法 来 提交 这 个 Stage。 


private| scheduler | defhandleJobSubmitted( jobId : Int, 


finalRDD:RDD|[ |, 

func; (TaskContext, Iterator] _]) => _, 
partitions ; Array[ Int | , 

allowLocal : Boolean , 

callSite ; CallSite , 


listener : JobListener , 


properties ; Properties = null) 


varfinalStage : Stage = null 


try | 


| 


// New stage creation may throw an exception if, for example, jobs are run on a 

//HadoopRDD whose underlying HDFS files have been deleted. 

// 根 据 finalRDD 构建 fnalStage 

finalStage = newStage( finalRDD, partitions. size, None, jobld, callSite) 

catch | 

case e; Exception => 
logWarning( " Creating new stage failed due to exception — job:" + jobld, e) 
listener. jobFailed( e) 


return 


if (finalStage ! = null) | 


val job = newActiveJob( jobId, finalStage, func, partitions, callSite, listener, properties ) 
clearCacheLocs ( ) 
logInfo( " Got job 96s (96s) with 96d output partitions ( allowLocal = 96 s)". format( 
job. jobId, callSite. shortForm, partitions. length, allowLocal) ) 
logInfo( " Final stage;" + finalStage + " (" + finalStage. name +" )" ) 


" 


logInfo( " Parents of final stage;" + finalStage. parents ) 
logInfo ( " Missing parents ;" + getMissingParentStages ( finalStage ) ) 
valshouldRunLocally = 
localExecutionEnabled &&allowLocal && finalStage. parents. isEmpty && partitions. length == 1 
if (shouldRunLocally) | /判断 是 否 适合 Local 模式 运行 
// Compute very short actions like first( ) or take( ) with no parent stages locally. 
listenerBus. post( SparkListenerJobStart( job. jobld, Seq. empty, properties ) ) 
runLocally ( job ) 


else | 


jobldToActiveJob( jobld) = job 
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activeJobs += job 
finalStage. resultOfJob = Some( job ) 
valstagelds = jobldToStagelds ( jobld ) . toArray 
valstageInfos = stagelds. flatMap(id => stageldToStage. get( id). map(_. latestInfo ) ) 
listenerBus. post( SparkListenerJobStart( job. jobId , stageInfos , properties ) ) 
submitStage( finalStage) /根据 RDD 之 间 的 依赖 关系 ,递归 调用 submitStage 方法 。 
| 

| 


submitWaitingStages( ) 


| 


(6) submitStage 方法 中 会 根据 依赖 关系 划分 Stage， 通 过 递归 调用 从 finalStage 一 直 往 前 
HREM Stage, Hl) Stage 没有 父 Stage 时 就 调用 submitMissingTasks 方法 提交 给 Stage。 这 样 
就 完成 了 将 job 划分 为 一 个 或 者 多 个 Stage。 如 果 被 当 作 参数 传 进 的 Stage 有 父 Stage, JA ix 
个 Stage 会 放 和 waitingStage 中 ， 等 待 以 后 执行 。 


/ *** Submits stage ,but first recursively submits any missing parents. */ 
private def submitStage( stage: Stage) | 
val jobId = activeJobForStage( stage ) 
if (jobId. isDefined) | 
logDebug( " submitStage(" + stage +" )" ) 
if (! waitingStages( stage) && | runningStages(stage) && | failedStages(stage) ) | 
// 38 3X. getMissingParentStages 找 出 该 Stage 的 所 有 父 Stage 
val missing = getMissingParentStages( stage). sortBy(_. id) 
logDebug( " missing: " 
if (missing == Nil) | 


+ missing ) 


logInfo( " Submitting " + stage +" (" +stage. rdd +") ,which has no missing parents" ) 
// 如 果 该 Stage 的 父 Stage 不 存在 ,可 以 直接 提交 任务 集 

submitMissingTasks ( stage ,jobId. get) 

| else | 

for (parent <- missing) | 
// 如 果 该 Stage 的 父 Stage 存在 ,就 继续 递归 调用 submitStage 方法 ,直到 找到 没有 父 Stage 的 Stage 
才 停止 

submitStage ( parent ) 

| 

// 把 当前 有 父 Stage 的 Stage 加 入 这 个 收藏 未 执行 Stage 的 key/value 集合 中 


waitingStages += stage 


| 


| else | 


" 


abortStage( stage," No active job for stage " + stage. id) 
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(7) getMissingParentStages 方法 中 会 根据 finalstage 对 应 finalRDD 的 dependence 类 型 来 创 
建 它 的 父 Stage。 如 果 是 ShuffleDependency (也 即 宽 依赖 )， 则 调用 getShuffleMapStage 方法 创 
建 父 Stage; 如 果 是 窗 依 赖 ， 会 把 罕 依 赖 对 应 的 RDD 放 和 waitingForVisit 栈 项 ， 等 下 次 继续 
调用 visit 方法 继续 向 前 回溯 。 > 


private def getMissingParentStages( stage: Stage) : List[ Stage | = | 
val missing = newHashSet| Stage | 
val visited = newHashSet| RDD| | | 
// We are manually maintaining a stack here to preventStackOverflowError 
// caused by recursively visiting 
valwaitingForVisit = new Stack| RDD[ _ | | 
def visit( rdd; RDD[_]) | 
if (! visited(rdd) ) | 
visited += rdd 
if ( getCacheLocs( rdd). contains( Nil) ) | 
for (dep <- rdd. dependencies) | 
dep match | /根据 RDD 的 依赖 关系 决定 是 否 创建 产生 新 的 父 Stage 
caseshufDep: ShuffleDependency[ _,_,_| => 
valmapStage = getShuffleMapStage( shufDep , stage. jobld ) 
if (! mapStage. isAvailable) | 
missing += mapStage 
| 
casenarrowDep: NarrowDependency| _ | => 


waitingForVisit. push ( narrowDep. rdd) 


| 
waitingForVisit. push( stage. rdd ) 
while ( ! waitingForVisit. isEmpty) | 
// 如 果 waitingForVisit 不 为 空 ,继续 循环 调用 visit 方法 ,根据 栈 顶 的 RDD 继续 向 前 回 // 济 来 判断 
否 满足 ShuffleDependency 
visit ( waitingForVisit. pop( ) ) 
| 


missing. toList 


| 


(8) 最 后 会 在 submitMissingTasks 方法 中 将 Stage 封装 成 TaskSet 通过 taskSchedul- 
er. submitTasks 函数 提交 给 TaskScheduler 处 理 。 


/ ** Called when stage 's parents are available and we can now do its task. * / 
private def submitMissingTasks(stage: Stage,jobld: Int) | 
logDebug( " submitMissingTasks(" + stage +" )" ) 


a 
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// Get our pending tasks and remember them in our pendingTasks entry 


stage. pendingTasks. clear( ) 


// First figure out the indexes of partition ids to compute. 
val partitionsToCompute: Seq[ Int] = | 
if (stage. isShuffleMap) | 
(0 until stage. numPartitions ). filter( id => stage. outputLocs( id) == Nil) 
| else | 
val job = stage. resultOfJob. get 
(0 until job. numPartitions ). filter(id => ! job. finished (id) ) 


val properties = if ( jobIdToActiveJob. contains(jobld) ) | 
jobldToActiveJob( stage. jobId). properties 

| else | 
// this stage will be assigned to "default" pool 


null 


runningStages += stage 

// SparkListenerStageSubmitted should be posted before testing whether tasks are 

// serializable. If tasks are not serializable , a SparkListenerStageCompleted event 

// will be posted , which should always come after a corresponding SparkListenerStageSubmitted 
// event. 

stage. latestInfo = StageInfo. fromStage( stage , Some( partitionsToCompute. size) ) 

listenerBus. post( SparkListenerStageSubmitted( stage. latestInfo , properties ) ) 


var taskBinary; Broadcast| Array| Byte | | = null 
try | 
// For ShuffleMapTask ,serialize and broadcast (rdd , shuffleDep). 
// For ResultTask ,serialize and broadcast ( rdd , func ). 
val taskBinaryBytes; Array[ Byte] = 
// 通 过 stage. isShuffleMap 来 判断 是 ShuffleMap 还 是 FinalMap ,分 别 对 其 进行 序列 化 
if (stage. isShuffleMap) | 
closureSerializer. serialize( (stage. rdd , stage. shuffleDep. get) : AnyRef). array( ) 
| else | 
closureSerializer. serialize( (stage. rdd , stage. resultOfJob. get. func) : AnyRef). array( ) 
| 
taskBinary = sc. broadcast ( taskBinaryBytes ) 
| catch | 
// In the case of a failure during serialization , abort the stage. 


case e; NotSerializableException 2» 
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abortStage( stage ," Task not serializable: " + e. toString) 
runningStages — = stage 
return 
case NonFatal(e) => 
abortStage( stage , s" Task serialization failed; $e\n$ | e. getStackTraceString| " ) 
runningStages — = stage 


return 


val tasks; Seq[ Task[. |] ] =if (stage. isShuffleMap) | 


// 通 过 stage. isShuffleMap 来 决定 是 ShuffleMapTask 还 是 ResultTask 
partitionsToCompute. map | id => 


val locs = getPreferredLocs ( stage. rdd , id) 
val part = stage. rdd. partitions( id ) 
//ShuffleMapTask 是 根据 stage 所 依赖 的 RDD 的 partition 分 布 产 生 和 partition 数量 相等 的 
Task ,这 些 Task 根据 partition 的 locality 进行 分 布 
new ShuffleMapTask ( stage. id ,taskBinary , part ,locs ) 
| 
| else | 
val job = stage. resultOfJob. get 
partitionsToCompute. map | id => 
val p: Int = job. partitions (id) 
val part = stage. rdd. partitions( p) 
val locs = getPreferredLocs ( stage. rdd , p) 
new ResultTask ( stage. id, taskBinary , part ,locs , id) 


if (tasks. size 50) | 
try | 
closureSerializer. serialize( tasks. head) 
| catch | 
case e; NotSerializableException => 
abortStage( stage," Task not serializable; " + e. toString) 
runningStages — = stage 
return 
case NonFatal(e) 2» // Other exceptions ,such as IllegalArgumentException from Kryo. 
abortStage( stage , s" Task serialization failed; $e\n$ | e. getStackTraceString | " ) 


runningStages — = stage 


return 


logInfo( " Submitting " + tasks. size +" missing tasks from " + stage +" (" + stage. rdd +")") 


e 
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stage. pendingTasks + += tasks 


logDebug( " New pending tasks; " + stage. pendingTasks ) 
taskScheduler. submitTasks ( 
// 3E stage 对 应 生成 的 所 有 Task 封装 到 一 个 TaskSet 中 ,提交 给 TaskScheduler 的 submitTasks 
方法 进行 调度 
new TaskSet( tasks. toArray ,stage. id ,stage. newAttemptId( ) ,stage. jobId, properties ) ) 
stage. latestInfo. submissionTime = Some( clock. getTime( ) ) 
| else | 
// Because we posted SparkListenerStageSubmitted earlier, we should post 
// SparkListenerStageCompleted here in case there are no tasks to run. 
listenerBus. post( SparkListenerStageCompleted ( stage. latestInfo ) ) 
logDebug( " Stage " + stage +" is actually done; %b 96d 96 d". format( 
stage. isAvailable , stage. numAvailableOutputs , stage. numPartitions ) ) 


runningStages — = stage 


| 


此 时 TaskScheduler 通过 调用 自己 的 submitTasks 方法 接受 来 日 DAGScheduler 发 送 过 来 的 
TaskSet, TaskScheduler 收 到 TaskSet 后 负责 把 任务 集 以 Task 的 形式 一 个 个 分 发 到 集群 Worker 
结 点 的 Executor 中 去 运行 。 下 面 我 们 进入 TaskScheduler 类 的 Spark 源码 ,分 析 它 如 何 提交 
Task 到 集群 中 去 运行 。 


5.2.4 TaskScheduler 提交 Task 


(1) 对 于 DAGScheduler 提交 过 来 的 TaskSet，TaskSchedulerImpl ( TaskSchedulerImpl 是 
TaskScheduler 的 实现 子 类 ) 会 初始 化 一 个 TaskSetManager 对 其 的 生命 周期 进行 管理 ， 当 
TaskSchedulerImpl 得 到 Worker 结 点 上 的 Executor 计算 资源 的 时 候 ， 会 通过 TaskSetManager 来 
发 送 具体 的 Task 到 Executor 上 执行 计算 。 


override def submitTasks( taskSet. TaskSet) | 

// 传 递 进 来 的 TaskSet 生成 一 个 tasks 数组 

val tasks = taskSet. tasks 

logInfo( " Adding task set " + taskSet. id +" with " + tasks. length +" tasks" ) 

this. synchronized | 

// 对 于 每 一 个 TaskSet ,初始 化 一 个 TaskSetManager 来 管理 它 的 生命 周期 
val manager = new TaskSetManager( this , taskSet , maxTaskFailures ) 
activeTaskSets( taskSet. id) = manager 

//38 TaskSetManager 放 人 系统 的 调度 池 里 


schedulableBuilder. addTaskSetManager( manager ,manager. taskSet. properties ) 


if (! isLocal && ! hasReceivedTask) | 
starvationTimer. scheduleAtFixedRate( new TimerTask( ) | 


override def run( ) | 
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if (! hasLaunchedTask) | 
logWarning( " Initial job has not accepted any resources; " + 


"check your cluster UI to ensure that workers are registered " + 


"and have sufficient memory" ) S 
| else | 


this. cancel( ) 


| 
| ,STARVATION_TIMEOUT, STARVATION_TIMEOUT) 


| 


hasReceivedTask = true 


| 
这 里 的 backend 是 SparkDeploySchedulerBackend ,调用 它 的 reviveOffers 方法 进行 处 理 操 作 
backend. reviveOffers( ) 


| 


(2) SparkDeploySchedulerBackend 实际 上 使 用 的 是 从 父 类 CoarseGrainedSchuedulerBack- 
end 的 reviewOffers 方法 ， 在 这 个 方法 里 会 回 driverActor 发 送 消 息 。 


override def reviveOffers( ) | 


driverActor ! ReviveOffers 


(3) 通过 driverActor 的 初始 化 可 以 看 到 实际 上 接受 并 处 理 消 息 的 类 是 Coarsegrained- 
SchedulerBackend HJ N Hz% DriverActor。 


var driverActor: ActorRef = null 
override def start( ) | 
val properties = new ArrayBuffer| (String, String) | 
for ( (key,value) «- scheduler. sc. conf. getAll) | 
if (key. startsWith( " spark. " ) ) | 
properties += ( (key, value) ) 


driverActor = actorSystem. actorOf ( Props ( new DriverActor ( properties ) ) , name = C oarseG- 


rainedSchedulerBackend. ACTOR, NAME) 
| 


(4) DriverActor 收 到 消息 会 继续 调用 自己 的 makeOffers 方法 。 


caseReviveOffers => 


makeOffers( ) 


(5) 在 makeOffers 方法 中 会 通过 TaskSchedulerImpl 的 resourceOffers 方法 申请 资源 ， 然 
后 调用 launchTasks 方法 准备 向 Executor 发 送 需 要 计算 的 Task, 
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// Make fake resource offers on all executors 
defmakeOffers( ) | 
launchTasks (scheduler. resourceOffers ( executorDataMap. map | case (id,executorData) => 


newWorkerOffer( id, executorData. executorHost , executorData. freeCores ) 
|. toSeq) ) 


(6) 在 launchTasks 方法 中 ， 会 根据 申请 的 资源 用 for 循环 把 Task 一 个 个 发 送 到 Worker 
结 点 上 的 CoarseGrainedExecutorBackend。 人 然后 通过 CoarseGrainedExecutorBackend 内 部 的 Ex- 
ecutor 来 执行 Task 。 


def launchTasks( tasks; Seq[ Seq[ TaskDescription] ] ) | 
for (task <- tasks. flatten) | 


val ser = SparkEnv. get. closureSerializer. newInstance( ) 
val serializedTask = ser. serialize( task) /序列 化 每 个 Task 
if ( serializedTask. limit >= akkaFrameSize - AkkaUtils. reservedSizeBytes) | 
val taskSetId = scheduler. taskIdToTaskSetId( task. taskId ) 
scheduler. activeTaskSets. get( taskSetId) . foreach | taskSet => 
try | 
var msg = " Serialized task 96 s :% d was 96 d bytes, which exceeds max allowed; " + 
"spark. akka. frameSize ( 96 d bytes) — reserved (96d bytes). Consider increasing " + 
" spark. akka. frameSize or using broadcast variables for large values. " 
msg = msg. format( task. taskId , task. index , serializedTask. limit , akkaFrameSize , 
AkkaUtils. reservedSizeBytes ) 
taskSet. abort( msg) 
| catch | 


case e; Exception => logError( " Exception in error callback" ,e) 


| 


else | 
val executorData = executorDataMap( task. executorld ) 
executorData. freeCores — = scheduler. CPUS_PER_TASK 
// iu] Worker 结 点 上 的 CoarseGrainedExecutorbackend 发 送 消息 执行 Task 


executorData. executorActor ! LaunchTask( new SerializableBuffer( serializedTask ) ) 


5.2.5 Executor 运行 Task 并 返回 结果 


(1) 在 CoarseGrainedExecutorBackend 的 receiveWithLogging 方法 中 ,会 收 到 CoarseG- 
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rainedSchedulerBackend 内 部 的 DriverActor 发 送 过 来 的 LaunchTask 消息 ， 并 调用 Executor 的 
launchTask 方法 进行 处 理 。 


case LaunchTask( data) => 

if (executor == null) | > 
logError( " Received LaunchTask command but executor was null" ) 
System. exit( 1) 

| else | 
val ser = SparkEnv. get. closureSerializer. newInstance( ) 
val taskDesc = ser. deserialize| TaskDescription | ( data. value) 
logInfo( " Got assigned task " + taskDesc. taskId) 


executor. launchTask ( this , taskDesc. taskId , task Desc. name, taskDesc. serializedTask ) 


| 


(2) 在 Executor 的 launchTask 方法 中 ， 首 先 会 初始 化 一 个 TaskRunner 来 封装 Task, 
TaskRunner 管理 Task 运行 时 的 所 有 细节 。 然 后 把 TaskRunner 对 象 放 和 到 Java 的 threadPool 
(线程 池 ) 中 去 执行 。 


def launchTask( 


context; ExecutorBackend, taskId; Long,taskName; String,serializedTask; ByteBuffer) | 
val tr = new TaskRunner( context ,taskld , taskName , serializedTask ) 
runningTasks. put( taskld , tr) 
threadPool. execute( tr) 


| 


(3) 打开 TaskRunner 类 ， 我 们 可 以 发 现 它 实现 了 Runnable 接口 。 对 于 它 所 有 的 运行 状 
况 ， 我 们 可 以 在 它 的 run( ) 方 法 里 查看 。 


class TaskRunner( 
execBackend; ExecutorBackend, val taskId: Long,taskName; String, serializedTask ; 
ByteBuffer) extends Runnable | 


@ volatile private var killed = false 
@ volatile var task; Task| Any | =_ 
@ volatile var attemptedTask : Option| Task| Any] | = None 


1) fErun () FIRM, HG ETT Driver vig IS WK IJ Task 本 号 以 及 它 所 依赖 的 Jar 
等 文件 的 反 序列 。 


override def run( ) | 
val deserializeStartTime = System. currentTimeMillis( ) 
Thread. currentThread. setContextClassLoader( replClassLoader) 
val ser = SparkEnv. get. closureSerializer. newInstance( ) 


logInfo( s" Running $taskName ( TID $taskId)" ) 
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execBackend. statusUpdate(taskId , TaskState. RUNNING, EMPTY BYTE BUFFER) 
var taskStart; Long =0 
def gcTime = 
ManagementFactory. getGarbageCollectorM XBeans. map(  . getCollectionTime) . sum 


val startGCTime = gcTime 


try | 


Accumulators. clear( ) 


//Task 所 依赖 的 Jar 等 文件 的 反 序列 化 
val (taskFiles ,taskJars ,taskBytes) = Task. deserializeWithDependencies( serializedTask ) 


updateDependencies ( task Files , taskJars ) 


//Task 的 反 序 列 化 。 
task = ser. deserialize | Task| Any | | ( taskBytes, 
Thread. currentThread. getContextClassLoader ) 


2) Task 的 运行 是 调用 ask 的 run 方法 实现 的 ,在 task. run. (taskld. tolnt) 的 方法 内 部 会 
继续 调用 Task 的 runTask 方法 ， 在 这 里 ， 由 于 Task 本 和 里 是 个 抽象 类 ， 具 体 的 runTask 方法 是 
由 它 的 两 个 子 类 ShuffleMapTask 和 RedultTask 来 实现 的 。 


// Run the actual task and measure its runtime. 
taskStart = System. currentTimeMillis( ) 
val value = task. run( taskld. toInt ) 


val taskFinish = System. currentTimeMillis( ) 


3) 对 于 ShuffleMapTask 而 言 ， 它 的 计算 结 采 会 写 到 BlockManager 之 中 ， 最 终 返 回 给 
DAGScheduler 的 是 一 个 MapStatus 对 象 ， 该 对 象 中 管理 了 ShuffleMapTask 的 运算 结果 存储 到 
BlockManager 里 的 相关 存储 信息 ， 而 不 是 计算 结果 本 身 ， 这 些 存储 信息 将 会 成 为 下 一 阶段 的 
Task 需要 获得 的 输入 数据 时 的 依据 。 


override def runTask( context; TaskContext) : MapStatus = | 


// Deserialize the RDD using the broadcast variable. 

val ser 2 SparkEnv. get. closureSerializer. newInstance( ) 

// 反 序列 化 广播 变量 ,得 到 RDD 

val (rdd,dep) = ser. deserialize[ ( RDD[ _] ,ShuffleDependency[ _,_,_ | ) | ( 
ByteBuffer. wrap ( taskBinary. value) , Thread. currentThread. getContextClassLoader ) 


metrics = Some( context. taskMetrics ) 
var writer; ShuffleWriter[ Any, Any | = null 
try | 
val manager = SparkEnv. get. shuffleManager 
writer = manager. getWriter[ Any, Any | ( dep. shuffleHandle , partitionId , context ) 
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// 这 里 首先 调用 rdd. iterator ,如果 该 RDD 已 经 cache 或 者 checkpoint ,那么 直接 读 取 结果 。 否 则 
开始 计算 ,如果 结 果 会 保存 在 本 地 文件 系统 的 BlockManager 中 
writer. write( rdd. iterator( partition, context). asInstanceOf| Iterator[_ < ; Product2| Any, Any] | ]) 
// 返 回 的 是 包含 了 数据 的 Location 和 Size 等 元 数据 信息 的 MapStatus 信息 e 


return writer. stop( success = true) . get 


| catch | 
case e; Exception => 
try | 
if (writer ! 2 null) | 
writer. stop( success = false) 


| 


| catch | 
case e: Exception => 


log. debug( " Could not stop writer" ,e) 


| 


throw e 


| 
4) 对 于 ResultTask 的 runTask 方法 而 言 ， 它 最 终 返 回 的 是 func 困 数 的 计算 结果 。 


override def runTask( context; TaskContext) ; U = | 
// Deserialize the RDD and the func using the broadcast variables. 
val ser = SparkEnv. get. closureSerializer. newInstance( ) 
val ( rdd func) = ser. deserialize| ( RDD| T] , ( TaskContext , Iterator] T] ) => U) ]( 
ByteBuffer. wrap ( taskBinary. value) , Thread. currentThread. getContextClassLoader ) 


metrics = Some( context. taskMetrics ) 
//ResultTask 的 runTask 方法 返回 的 是 计算 结 
func( context , rdd. iterator( partition , context ) ) 


| 
(4) 对 于 Executor 的 计算 结果 ， 最 终 是 要 返回 给 Driver 的 ， 这 时 ， 会 根据 结果 的 大 小 有 


不 同 的 策略 : 


1) 如 果 结 有 果 大 于 1GB， 那 么 直接 丢弃 这 个 结果 (这 个 是 Spark1.2 中 新 加 的 策略 ) 。 可 


以 通过 spark. driver. maxResultSize 来 进行 设置 。 


2) 这 里 的 回 传 是 直接 通过 Akka 的 消息 传递 机 制 。 因 此 这 个 结果 的 大 小 首先 不 能 超过 


这 个 机 制 设置 的 消息 的 最 大 值 。 这 个 最 大 值 是 通过 spark. akka. frameSize 设置 的 ， 默 认 值 是 
10MB。 除 此 之 外 , 还 有 200KB 的 预 留 空间 。 对 于 “ 较 大 ”的 结果 (resultSize > = akkaF- 
rameSize — akkaUtils. reservedSizeBytes) ， 将 其 以 taskId 为 key 存 人 org. apache. spark. storage. 
BlockManager, 


3) 其 他 的 直接 通过 Akka 回 传 到 Driver。 


val serializedResult = | 
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// 如 果 resultSize 的 大 小 小 于 1C(maxResultSize 的 默认 值 ) ,那么 就 直接 丢弃 返回 的 结 
if (maxResultSize >0 && resultSize > maxResultSize) | 
logWarning( s" Finished $taskName ( TID$taskId). Result is larger than maxResultSize " + 
s" ($ | Utils. bytesToString( resultSize) | >$ | Utils. bytesToString ( maxResultSize ) | ) ," 
+s" dropping it." ) 
ser. serialize( new IndirectTaskResult[ Any | ( TaskResultBlockId( taskId) , resultSize) ) 
| /7 如 果 不 能 通过 Akka 的 消息 传递 ,那么 结果 会 放 入 BlockManager 中 ,等 待 以 网 
路 的 形式 获取 
else if (resultSize >= akkaFrameSize - AkkaUtils. reservedSizeBytes) | 
val blockId = TaskResultBlocklId( taskId ) 
env. blockManager. putBytes( 
blocklId , serializedDirectResult , StorageLevel. MEMORY AND. DISK SER) 
logInfo( 
s" Finished $taskName ( TID $taskId ) . $resultSize bytes result sent via BlockManager) " ) 
ser. serialize( new IndirectTaskResult[ Any | ( blockId, resultSize ) ) 
| else | /结果 可 以 直接 传 给 Driver 
logInfo( s" Finished$taskName ( TID $taskId). $resultSize bytes result sent to driver" ) 


serializedDirectResult 


| 
// 通 过 Akka [n] Driver 汇报 本 次 Task 已 经 完成 。 这 里 的 execBackend 是 CoarseGrainedExecutorBack- 
end 


execBackend. statusUpdate( taskId , TaskState. FINISHED, serializedResult ) 


5. 2. 6 Driver 的 处 理 


(1) TaskRunner 将 Task 的 执行 状态 (StatusUpdate 信息 ) 汇报 给 Driver (负责 接受 并 处 
理 消 息 的 是 DriverActor 的 receiveWithLogging) 后 ，Driver 会 转 给 org. apache. spark. scheduler. 
TaskSchedulerImpl 的 statusUpdate 方法 。 


case StatusUpdate( executorld , taskld , state, data) => 
// 调 用 TaskScheduler 的 statusUpdate 方法 
scheduler. statusUpdate ( taskld , state , data. value ) 
if ( TaskState. isFinished( state) ) | 
executorDataMap. get( executorld) match | 
case Some( executorInfo) => 
executorInfo. freeCores += scheduler. CPUS. PER. TASK 
makeOffers ( executorld ) 
case None => 
// \gnoring the update since we don 't know about the executor. 
logWarning( s" Ignored task status update ($taskId state $state) " + 


"from unknown executor$sender with ID $executorld" ) 
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| 


(2) 进入 TaskScheduulerImpl 的 statusUpdate 方法 中 ， 这 里 不 同 的 状态 有 不 同 的 处 理 : 

1) 如 果 类 型 是 TaskState. FINISHED, ， 那 么 调用 TaskResultGetter 的 enqueueSuccessfulTask 
Fa S Rp: 

2) 如 果 类 型 是 TaskState. FAILED, TaskState. KILLED 或 者 TaskState. LOST, 调用 
TaskResultGetter 的 enqueueFailedTask 进行 处 理 ， 对 于 TaskState. LOST， 还 需要 将 其 所 在 的 
Executor 标记 为 failed， 并 且 根 据 更 新 后 的 Executor 重新 调度 。 

3) enqueueSuccessfulTask 方法 的 逻辑 也 比较 简单 ， 就 是 如 果 是 IndirectTaskResult, AA 
需要 通过 blockid 来 获取 结果 : sparkEnv. blockManager. getRemoteBytes (blockId) ; 如 果 是 Di- 
rectTaskResult, HKA 25 WIC v FEAR DE. 

4) 然后 调用 连续 调用 TaskSchedulerImplsthandleSuecessfulTask -> 。 


TaskSetManager#handleSuccessfulTask -> DAGScheduler#taskEnded 


-> DAGScheduler#eventProcessActor - > DAGScheduler#handleTaskCompletion 进行 处 理 ， 
核心 逻辑 都 在 最 后 一 个 调用 栈 
5) WAR task 是 ShuffleMapTask ， 那 么 它 需 要 将 结果 通过 某 种 机 制 告 诉 下 游 的 Stage, LA 
便于 其 可 以 作为 下 游 Stage 的 输入 。 这 个 机 制 是 怎么 实现 的 ? 实际 上 ， 对 于 ShuffleMapTask 
来 说 ， 其 结果 实际 上 是 org. apache. spark. scheduler. MapStatus; 其 序列 化 后 存 人 了 Direct- 
TaskResult 或 者 IndirectTaskResult Po my DAGScheduler#handleTaskCompletion 通过 下 面 的 方 
式 来 获取 这 个 结果 : 


case smt; ShuffleMapTask => 
updateAccumulators ( event ) 


val status = event. result. asInstanceOf| MapStatus | 


6) 通过 将 这 个 status 注册 到 org. apache. spark. MapOutputTrackerMaster, ， 就 完成 了 结果 处 
理 的 全 过 程 : 


mapOutputTracker. registerMapOutputs( 
stage. shuffleDep. get. shuffleld , 
stage. outputLocs. map( list => if (list. isEmpty) null else list. head). toArray, 
changeEpoch = true ) 


7) 而 registerMapOutputs 的 处 理 也 很 简单 ， 以 Shuffle ID 为 key 将 MapStatus 的 列表 存 
ATA WY le] A HashMap; TimeStampedHashMap | Int, Array | MapStatus]] ()。 如 果 设 
置 了 cleanup 的 函数 ， 那 么 这 个 HashMap 会 将 超过 一 定时 间 (TTL, Time to Live) 的 数据 
清理 掉 。 


f Spark 核心 源码 分 析 与 开发 实战 


_Section_ 


SEL 容错 机 制 


Spark 采用 了 两 种 方式 来 实现 数据 集 的 容错 : 第 一 种 是 Lineage (血统 ) 机 制 ， 基 于 
RDD, Spark 实现 了 一 系列 的 transformation 算 子 (方法 )， 这些 算 子 可 以 同时 施加 于 同一 数 
据 ， 这 样 就 形成 了 一 个 Lineage 链 ， 当 某 个 RDD 的 分 区 数据 丢失 时 ， 就 可 以 依据 这 个 链 进行 
回 湖 ， 重 新 计算 并 还 原 丢 失 的 数据 。 第 二 种 Checkpoint (检查 点 ) 机 制 ， 当 RDD 的 计算 链 
过 长 时 ， 一 旦 某 个 分 区 数据 丢失 后 就 需要 进行 大 量 的 计算 来 恢复 ， 这 不 仅 消 耗 了 时 间 资 源 ， 
也 可 能 会 造成 某 些 数据 的 元 余 计算 ， 为 了 避免 这 种 状况 发 生 ，Spark 提供 了 Checkpoint 机 制 
来 实现 容错 。 


=< Lineage 机 制 > 


伯克利 实验 室 在 一 篇 公开 论文 中 ， 对 RDD 的 定义 是 : 基于 内 存 的 集群 计算 容错 抽象 。 
英文 原文 标题 是 : Resilient Distributed Datasets; A Fault - Tolerant Abstraction for In - Memory 
Cluster Computing, X} Fixit RDD 来 说 ， 最 大 的 挑战 在 于 如 何 提供 高 效 的 容错 (fault — toler- 


ance) 而 保证 RDD 中 数据 的 健壮 性 。 现 有 的 集群 上 的 内 存 存储 抽象 ， 如 分 布 式 共享 内 存 、 
key/value 存储 、 内 存 数据 库 以 及 Cache 类 系统 等 ， 都 提供 了 对 可 变 状 态 ( 如 数据 库 表 里 的 
Cell) 的 细 粒 度 更 新 。 在 这 种 设计 下 为 了 容错 ， 就 必须 在 集群 结 点 间 进 行 数据 复制 ( data rep- 
licate) 或 者 记录 日 志 。 这 两 种 方法 对 于 数据 密集 型 的 任务 来 说 开销 都 非常 大 ， 因 为 需要 在 
结 点 间 复 制 大 量 的 数据 ， 而 网 络 带 宽 远 远 低 于 RAM 容量 。 

与 这 些 框架 细 粒 度 的 内 存 数据 更 新 级 别 的 备份 或 者 LOG 机 制 不 同 , RDD 提供 了 基于 粗 
粒度 转换 (coarse — grained transformation) 的 接口 ， 例 如 map、 季 ter、join， 能 够 将 同一 操作 
施加 到 许多 数据 项 上 。 于 是 通过 记录 这 些 构建 数据 集 的 粗 粒度 转换 的 日 志 ， 而 非 实际 数据 ， 
就 能 够 实现 高 效 的 容错 。RDD 数据 集 通 过 所 谓 的 血统 关系 (Lineage) 记 住 了 它 是 如 何 从 其 
他 RDD 中 演变 过 来 的 ， 当 某 个 RDD 部 分 分 区 数据 丢失 时 ,RDD 通过 Lineage 获取 充足 的 关 
于 丢失 的 那个 RDD 数据 分 区 是 如 何 从 其 他 RDD 产生 的 信息 ， 从 而 通过 重新 计算 来 还 原 技 失 
的 数据 ， 避 免 了 数据 复制 的 高 开销 。 

尽管 基于 粗 粒 度 转换 的 接口 第 一 眼看 起 来 有 些 受 限 ， 不 够 强大 ， 但 实际 上 RDD 却 能 很 
好 地 用 于 许多 并 行 计算 应 用 ， 因 为 这 些 应 用 本 里 目 然 而 然 地 就 是 在 多 个 数据 项 上 运用 相同 的 
操作 。 事 实 上 ，RDD 能 够 高 效 地 表达 许多 框架 的 编程 模型 ， 如 MapReduce, DryadLINQ, 
SQL、Pregel， 以 及 它们 处 理 不 了 的 交互 式 数据 挖掘 应 用 。 

在 RDD 中 将 依赖 划分 成 了 两 种 类 型 : AE ARH (Narrow Dependencies) 与 宽 依赖 ( Wide 
Dependencies (Shuffle Dependencies) ) 。 罕 依赖 是 指 父 RDD 的 每 一 个 分 区 最 多 被 一 个 子 RDD 
的 分 区 所 用 ， 表 现 为 一 个 父 RDD 的 分 区 对 应 于 一 个 子 RDD 的 分 区 或 多 个 父 RDD 的 分 区 对 
应 于 一 个 子 RDD 的 分 区 ， 也 就 是 说 一 个 父 RDD 的 一 个 分 区 不 可 能 对 应 一 个 子 RDD 的 多 个 
分 区 。 宽 依赖 是 指 子 RDD 的 分 区 依赖 于 父 RDD 的 多 个 分 区 或 所 有 分 区 ， 也 就 是 说 存在 一 个 
父 RDD 的 一 个 分 区 对 应 一 个 子 RDD 的 多 个 分 区 。 例 如 ，map 就 是 一 种 军 依 赖 ， 而 join 则 会 
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导致 宽 依赖 ， 除 非 父 RDD 是 hash — partitioned。 对 于 宽 依 赖 ， 这 种 计算 的 输入 和 输出 在 不 同 
的 结 点 上 ，lineage 方法 对 于 输入 结 点 完好 ， 而 输出 结 点 宕 机 时 ， 通 过 重新 计算 ,这 种 情况 
下 ， 这 种 方法 容错 是 有 效 的 ， 否 则 无 效 ， 因 为 无 法 重 试 ， 需 要 向 上 其 祖先 追溯 看 是 否 可 以 重 
试 (这 就 是 lineage， 血 统 的 意思 ) ， 罕 依赖 对 于 数据 的 重 算 开销 要 远 小 于 宽 依赖 的 数据 重 算 O) 
开销 。 

这 种 划分 在 容错 机 制 中 有 两 个 用 处 。 首 先 ， 罕 依赖 支持 在 一 个 结 点 上 管道 化 执行 ， 也 就 
是 pipeline 操作 。 例 如 基于 一 对 一 的 关系 ， 可 以 在 map, filter 之 后 才 开始 一 次 性 执行 这 两 个 
连续 的 操作 。 其 次 ， 罕 依赖 支持 更 高 效 的 故障 还 原 。 因 为 对 于 罕 依 赖 ， 只 有 丢失 的 父 RDD 
的 分 区 需要 重新 计算 ， 不 依赖 于 其 他 分 区 ， 并 不 存在 宛 余 计算 。 而 对 于 宽 依赖 ， 一 个 子 
RDD 分 区 的 故障 可 能 导致 来 自 所 有 父 RDD 的 分 区 丢失 ， 因 此 就 需要 完全 重新 执行 ， 但 这 样 
计算 也 会 重新 计算 那些 对 应 的 并 不 是 已 丢失 的 子 RDD 的 分 区 的 数据 ， 会 产生 宛 余 计算 开销 。 
因此 对 于 宽 依赖 ，Spaxk 会 在 持 有 各 个 父 分 区 的 结 点 上 ， 将 中 间 数 据 持久 化 来 简化 故障 还 
原 ， 就 像 MapReduce 会 持久 化 map 的 输出 一 样 。 


Checkpoint 机 制 


尽管 RDD 中 的 Lineage 信息 可 以 用 来 故障 恢复 ， 但 对 于 那些 Lineage 链 较 长 的 RDD 来 
说 ， 这 种 恢复 可 能 很 耗 时 ， 尤 其 是 在 做 一 些 迭 代 计 算 的 时 候 。 一 般 来 说 ，Lineage 链 较 长 、 
SU ABL] RDD 需要 采用 Checkpoint 机 制 。 这 种 情况 下 ， 集群 的 结 点 故障 可 能 导致 每 个 父 
RDD 的 数据 块 丢失 ， 因 此 需要 全 部 重新 计算 。 将 罕 依 赖 的 RDD 数据 存 到 物理 存储 中 可 以 实 
现 优化 。 

分 布 式 数据 集 实 现 容 错 的 方式 有 两 种 ， 一 种 是 记录 更 新 ， 另 一 种 是 检查 点 (check- 
point) 。 之 前 介绍 的 血统 机 制 就 是 通过 相当 于 粗 粒 度 的 记录 更 新 操作 来 实现 容错 的 ， 而 RDD 
的 Checkpoint 机 制 相 当 于 通过 元 余数 据 来 缓存 数据 ，Checkpoint 机 制 没 有 在 Job 第 一 次 计算 
得 到 结果 就 存储 ， 而 是 等 到 Job 结束 后 为 外 启动 专门 的 Job 去 完成 Checkpoint。 也 就 是 说 ， 
需要 Checkpoint 的 RDD 会 被 计算 两 次 。 因 此 ,在 使 用 rdd. checkpoint ( ) 时 ， 建 议 加 上 
rdd. cache( ) ， 这 样 第 二 次 运行 的 Job 就 不 用 再 去 计算 该 RDD 了， 直接 读 取 绥 存 上 的 数据 写 
入 磁盘 ， 其 实 Spark 提供 了 rdd. persist ( StorageLevel. DISK. ONLY) 这 样 的 方法 ， 相 当 于 组 
存 数据 到 磁盘 上 ， 这 样 就 可 以 做 到 RDD 第 一 次 被 计算 得 到 时 就 存储 到 磁盘 上 。 当 一 个 RDD 
需要 被 Checkpoint Wf, 一般 都 会 经 过 initialized, Marked for checkpointing, checkpointing in 
progrss 、Checkpointed 这 几 个 阶段 后 才能 被 Checkpoint, 

下 面 我 们 通过 源 代码 来 解析 Checkpoint 四 个 比较 大 的 步骤: 

(1) 当 RDD 需要 Checkpoint 时 ， 则 会 调用 rdd. checkpoint( ) 来 进行 标识 。 

1) 设 定 哪些 RDD 需要 被 Checkpoint, 2 jaiz RDD 会 交 给 RDDCheckpointData 进行 
管理 。 


/ x% 
* Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint 
* directory set with SparkContext. setCheckpointDir( ) and all references to its parent 
* RDDs will be removed. This function must be called before any job has been 


> 
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* executed on this RDD. It is strongly recommended that this RDD is persisted in 
* memory ,otherwise saving it on a file will require recomputation. 
* / 
def checkpoint( ) | 
if (context. checkpointDir. isEmpty) | 
throw new SparkException( " Checkpoint directory has not been set in the SparkContext" ) 
| else if ( checkpointData. isEmpty) | 
// FE rdd. checkpoint 方法 里 ,初始 化 RDDCheckpointData ,然后 调用 它 的 markForC heckpoint 77 
法 对 需要 被 checkpoint 的 RDD 进行 标识 
checkpointData = Some( new RDDCheckpointData( this ) ) 
checkpointData. get. markForCheckpoint( ) 


| 


2) 我 们 进入 RDDCheckpoint 类 查看 ， 当 调用 markForCheckpoint 方法 后 ，RDDCheck- 
pointData 会 将 RDD 标记 为 MarkedForCheckpoint。 


private[ spark | classRDDCheckpointData| T; ClassTag | ( @ transient rdd; RDD| T ]) 
extends Logging withSerializable | 


importCheckpointState. _ 


// The checkpoint state of the associated RDD. 
varepState = Initialized = //#)4@44 RDDCheckpoint 后 checkpoint 的 状态 是 initialized 


// The file to which the associated RDD has beencheckpointed to 
@ transient varcpFile; Option[ String | = None 


// TheCheckpointRDD created from the checkpoint file, that is, the new parent the associated RDD. 
varcpRDD; Option| RDD[ T] | = None 


// Mark the RDD forcheckpointing 
defmarkForCheckpoint( ) | /调用 该 方法 后 , cpState 状态 变 为 MarkedForCheckpoint 
RDDCheckpointData. synchronized | 
if (cpState == Initialized) cpState = MarkedForCheckpoint 


3) 同时 用 户 还 要 设 定 Checkpoint 的 存储 路 径 ， 一 般 在 HDFS Eo 


// Create the output path for the checkpoint 
val path = new Path( rdd. context. checkpointDir. get," rdd — " + rdd. id) 
val fs = path. getFileSystem( rdd. context. hadoopConfiguration ) 
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if (! fs. mkdirs( path) ) | 
throw newSparkException( " Failed to create checkpoint path " + path) 


| 


4) 对 于 RDD 的 标识 ,需要 在 Job 执行 前 被 mark (标识 ) ， 并 且 最 好 选择 persist ( 固 (C9) 
化 ) 这 个 RDD， 这 样 Checkpoint 可 以 直接 从 缓存 读 取 数 据 ， 否 则 在 存 Checkpoint 文件 时 需 
要 重新 Compute (计算 ) 该 RDD 内 容 。 
5) 当 RDD 被 Checkpoint 后 ， 所 有 的 dependencis (也 即 该 RDD 的 所 有 依赖 ) 都 会 被 清 
除 。 因 为 既然 RDD 已 经 被 Checkpoint， 那 么 就 可 以 直接 从 文件 读 取 ， 没 有 必要 保留 之 前 par- 
ents 的 dependencies 了 。 
在 RDDCheckpointData 的 doCheckpoint 方法 里 ， 最 终 会 调用 下 面 的 这 个 同步 代码 块 。 


// Change the dependencies and partitions of the RDD 
RDDCheckpointData. synchronized | 


cpFile = Some( path. toString) 

cpRDD = Some( newRDD ) 

rdd. markCheckpointed( newRDD) — // Update the RDD 's dependencies and partitions 
cpState 2 Checkpointed 


| 
6) 继续 调用 rdd 的 markCheckpoint 方法 ， 完 成 dependencis 的 清除 。 


/ x 
* Changes the dependencies of this RDD from its original parents to a new RDD ('newRDD ') 
* created from the checkpoint file, and forget its old dependencies and partitions. 
* / 
private[ spark | defmarkCheckpointed( checkpointRDD: RDD|[  ]) | 
clearDependencies( ) 
partitions | = null 


deps = null // Forget the constructor argument for dependencies too 


| 


(2) 在 eie ean 中 ， 最 后 会 调用 rdd. doCheckpoint， 如 果 前 面 已 经 标识 过 了 
要 进行 Checkpoint， 那 么 这 里 就 会 将 RDD ee Chenckpoint 到 文件 中 去 。 
1) 在 SparkContext runJob 方法 中 ， Job 运行 结束 后 都 会 调用 final RDD. doCheckpoint( ) 。 
defrunJob| T,U; ClassTag | ( 


rdd; RDD[ T], 
func; ( TaskContext , Iterator| T] ) => U, 


partitions ; Seq| Int ] , 

allowLocal; Boolean, 

resultHandler; (Int, U) => Unit) | 
if ( dagScheduler == null) | 


throw newSparkException( " SparkContext has been shutdown" ) 
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valcallSite = getCallSite 

valcleanedFunc = clean( func ) 

logInfo( " Starting job; " + callSite. shortForm ) 

dagScheduler. runJob( rdd , cleanedFunc , partitions , callSite , allowLocal , 

resultHandler , localProperties. get) 

progressBar. foreach( _. finishAll( ) ) 

// f SparkContext 调用 runJob 方法 提交 作业 时 ,最 后 会 调用 rdd. doCheckpoint 方法 。 如 果 rdd 被 
标识 过 ,就 会 真正 执行 checkpoint 

rdd. doCheckpoint( ) 
| 


2) finalRDD 会 顺 着 computing chain (也 即 从 初始 RDD 到 最 后 的 finalRDD 的 整个 计算 
链 ) 回溯 扫描 ， 磁 到 要 Checkpoint 的 RDD 就 将 其 标记 为 CheckpointingInProgresst。 


/ kk 


* Performs thecheckpointing of this RDD by saving this. It is called after a job using this 
* RDD has completed ( therefore the RDD has been materialized and potentially stored in 
* memory). doCheckpoint( ) is called recursively on the parent RDDs. 
*/ 
private[ spark | defdoCheckpoint( ) | 

if (! doCheckpointCalled) | 

doCheckpointCalled = true 

if ( checkpointData. isDefined) | 

checkpointData. get. doCheckpoint ( ) 
| else | 


dependencies. foreach(. . rdd. doCheckpoint( ) ) 


| 


3) 然后 将 写 磁 盘 (比如 写 HDFS) 需要 配置 的 文件 (如 core — site. xml 等 ) broadcast 到 
其 他 Worker 结 点 上 的 BlockManager。 完 成 后 ， 启 动 一 个 Job 来 完成 Checkpoint。 具 体 实现 是 
在 RDDCheckpointData 的 doCheckpoint 方法 中 。 


// Save to file ,and reload it as an RDD 
valbroadcastedConf = rdd. context. broadcast ( 

new SerializableWritable( rdd. context. hadoopConfiguration ) ) 
rdd. context. runJob( rdd , CheckpointRDD. writeToFile| T] ( path. toString, broadcastedConf) | ) 
valnewRDD = new CheckpointRDD[ T | ( rdd. context , path. toString) 
if ( newRDD. partitions. size ! = rdd. partitions. size) | 

throw newSparkException( 

"Checkpoint RDD " + newRDD +" (" + newRDD. partitions. size +" ) has different " + 


"number of partitions than original RDD " +rdd +" (" + rdd. partitions. size +" )" ) 
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(3) 在 RDDCheckpointData. doCheckpoint 中 会 调用 rdd. markCheckpointed (newRDD ) ， 
清除 dependencies 信息 并 最 终 将 状态 设置 为 Checkpointed ， 以 表示 完成 Checkpoint。 在 这 个 过 
程 中 会 生成 一 个 新 的 CheckpointRDD ， 该 CheckpointRDD 负责 以 后 读 取 在 文件 系统 上 的 Chek- 
point 文件 ， 作 为 读 取 checkpoint 文件 生成 的 RDD 的 父 RDD。 > 


// Change the dependencies and partitions of the RDD 
RDDCheckpointData. synchronized | 
cpFile = Some( path. toString) 
cpRDD = Some( newRDD) /新 生成 的 CheckpointRDD 
rdd. markCheckpointed( newRDD) — // Update the RDD 's dependencies and partitions 
cpState = Checkpointed 


| 


(4) 在 rdd. computeOrReadCheckpoint 方法 中 ， 如 果 看 到 已 经 完成 Checkpoint， 就 会 直接 
从 firstParent 中 读 取 数 据 。 


/** 
* Compute an RDD partition or read it from a checkpoint if the RDD ischeckpointing. 
*/ 
private[ spark | def computeOrReadCheckpoint( split; Partition , context ; TaskContext) : Iterator[ T] = 


| 


if (isCheckpointed) firstParent| T |. iterator( split , context) else compute( split , context) 


| 
rdd. firstParent 的 定义 如 下 : 


* * Returns the first parent RDD * / 

protected[ spark | deffirstParent[ U: ClassTag] = | 
dependencies. head. rdd. asInstanceOf[ RDD| U] | 

| 


dependencies. head. rdd, asInstanceOf [RDD [U]], 就 是 从 依赖 中 取 第 一 个 dependency 
的 RDD。 

通过 以 上 对 Spark 的 Checkpoint 机 制 的 源码 分 析 ， 使 得 我 们 对 整个 Checkpoint 的 运行 机 
制 的 了 解 更 深入 了 ， 这 样 有 利于 我 们 在 生产 环境 下 更 有 效率 地 使 用 Checkpoint 机 制 。 


Storage 存储 模块 


在 写 Spark 程序 的 时 候 我 们 常常 和 RDD 打交道 ， 通 过 RDD 为 我 们 提供 的 各 种 transfor- 
mation 和 action 接口 实现 我 们 的 应 用 ，RDD 的 引入 提高 了 抽象 层次 ， 在 接口 和 实现 上 进行 
效 地 隅 离 ， 使 用 户 无 需 关 心底 层 的 实现 。 但 是 RDD 提供 给 我 们 的 仅仅 是 一 个 “ 形 ”， 我 们 
所 操作 的 数据 完 竟 放 在 哪里 ， 如 何 存 取 ?” 它 的 “ 体 ” 是 怎么 样 的 ? 这 是 由 Storage (存储 模 
块 ) 来 实现 和 管理 的 。 基 于 RDD Spark 实现 了 多 种 缓存 策略 ， 既 可 以 把 数据 缓存 在 内 存 ， 
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也 可 以 缓存 在 磁盘 ， 还 可 以 选择 是 否 序列 化 以 及 存储 到 Tachyon 这 样 的 内 存 分 布 式 文件 系统 
中 。 总 归 一 点 ，Spark 的 存储 策略 的 终极 目的 是 为 了 在 CPU 的 使 用 率 和 内 存 的 使 用 量 上 达到 
效果 的 最 大 化 。 


S. 4. 1 | Storage 模块 整体 架构 


Storage 模块 主要 分 为 两 层 : 

通信 层 : Storage 模块 采用 的 是 master - slave 结构 来 实现 通信 层 ，master 和 slave 之 间 传 
输 控制 信息 、 状 态 信 息 ， 这 些 都 是 通过 通信 层 来 实现 的 。 

存储 层 : Storage 模块 需要 把 数据 存储 到 disk 或 是 memory 上 面 ， 有 可 能 还 需 replicate 到 
远 端 ， 这 都 是 由 存储 层 来 实现 和 提供 相应 接口 。 

而 其 他 模块 奋 要 和 Storage 模块 进行 交互 ，Storage 模块 提供 了 统一 的 操作 类 BlockManag- 
er， 外 部 类 与 Storage 模块 打交道 都 需要 通过 调用 BlockManager 相应 接口 来 实现 。 

1. Storage 模块 通信 层 

(1) 首先 我 们 看 一 下 在 Master - Slave 架构 下 的 各 个 Storage 模块 之 间 的 通信 交互 图 (如 
R| 5-4 所 示 )。 


Slave(BlockManager) 


BlockManagerMaster BlockManagerMaster 
x Actor(ref) 


BlockManagerSlave / 
Actor(actor) 


Master(BlockManager) 


BlockManagerMaster 


BlockManagerMaster 
Actor(actor) 


Slave(BlockManager) 


BlockManagerMaster 
BlockManagerMaster / 


BlockManagerSlave 
Actor(actor) 


图 5-4 Storage 模块 之 间 的 通信 交互 图 


第 5 章 Spark 的 运行 机 制 


对 于 master 结 点 和 slave 25 ii zi, BlockManager 的 创建 有 所 不 同 : 

Master (client driver) 结 点 的 BlockManagerMaster 拥有 BlockManagerMasterActor 的 actor 
和 所 有 BlockManagerSlaveActor 的 ref。 

Slave (executor) 结 点 的 BlockManagerMaster 则 拥有 BlockManagerMasterActor 的 ref 和 日 > 
Ey BlockManagerSlaveActor 的 actor, 

BlockManagerMasterActor 在 ref 和 actor 之 间 进 行 通信 ; BlockManagerSlaveActor 在 ref 和 
actor 之 间 通 信 。BlockManager wrap (封装 ) 了 BlockManagerMaster， 通 过 BlockManagerMaster 
进行 通信 。Spark 会 在 client driver 和 executor WAJE A HJ BlockManager， 通 过 BlockManager 
对 storage 模块 进行 操作 。 

这 里 再 解释 一 下 actor 和 ref ASC: actor 和 ref 是 Akka 中 的 两 个 不 同 的 actor reference 
(角色 引用 )， 分 别 由 actorOf 和 actorFor 所 创建 。actor 类 似 于 网 络 服务 中 的 server vig, ER 
存 所 有 的 状态 信息 ， 接 收 client 端的 请 求 执 行 并 返回 给 客户 端 vef 类 似 于 网 络 服 务 中 的 cli- 
ent Mig, IRA] server 端 发 起 请 求 获取 结 

(2) BlockManager 对 象 在 SparkEnv 类 的 create 方法 中 被 创建 ,创建 的 过 程 如 下 所 示 。 


valblockManagerMaster = new BlockManagerMaster( registerOrLookup ( 
" BlockManagerMaster" , 


new BlockManagerMasterA ctor( isLocal , conf, listenerBus ) ) , conf, isDriver) 


// NB:blockManager is not valid until initialize( ) is called later. 
valblockManager = new BlockManager( executorld , actorSystem , blockManagerMaster , 
serializer, conf, mapOutputTracker , shuffleManager , blockTransferService , security Manager, 


numUsableCores ) 


可 以 看 到 对 于 client driver 和 executor, Spark 分 别 创建 了 BlockManagerMasterActor 的 ac- 
tor 和 ref， 并 被 wrap 到 BlockManager 中 。 

(3) 通信 层 传递 的 消息 。 

1) BlockManagerMasterActor 在 ref 和 actor 之 间 的 通信 。 


override defreceiveWithLogging = | 
//Executor 创建 BlockManager 后 向 Client Driver 发 送 请 求 
case RegisterBlockManager( blockManagerld ,maxMemSize, slaveActor) => 
register( blockManagerld , maxMemSize , slave Actor ) 


sender ! true 


caseUpdateBlockInfo(  // 更 新 Block 的 信息 
blockManagerld ,blockId , storageLevel , deserializedSize , size ,tachyonSize ) => 
// TODO: Ideally we want to handle all the message replies in receive instead of in the 
// individual private methods. 
updateBlockInfo ( blockManagerld , blocklId , storageLevel , deserializedSize , size , tachyonSize ) 
// 获 取 Block 所 在 的 BlockManager 的 Id 
caseGetLocations( blockId) => 
sender ! getLocations( blocklId ) 


f Spark 核心 源码 分 析 与 开发 实战 


// 获 取 一 组 Block 所 在 BlockManager 的 Id 
case GetLocationsMultipleBlockIds( blockIds) => 
sender | getLocationsMultipleBlockIds ( blockIds ) 
// 请 求 获 取 其 他 BlockManager 的 Id 
caseGetPeers ( blockManagerld) => 
sender | getPeers( blockManagerld ) 
// 删 除 所 保存 的 已 经 “死亡 ”的 Executor 上 的 BlockManager 
caseRemoveExecutor( execId) => 
removeExecutor( execld ) 
sender ! true 
// E 1k Client Driver 上 的 BlockManagerMasterActor 
case StopBlockManagerMaster => 
sender ! true 
if (timeoutCheckingTask ! = null) | 
timeoutCheckingTask. cancel( ) 


| 


context. stop( self) 


| 
2) BlockManagerSlaveActor 在 ref 和 actor 之 间 通 信 。 


override defreceiveWithLogging = | 
caseRemoveBlock(blockId) =>  // 删 除 Block 
doAsync[ Boolean | ( " removing block " + blockId,sender) | 
blockManager. removeBlock ( blockId ) 


true 


caseRemoveRdd(rddld) => /删除 RDD 
doAsync| Int] ("removing RDD " +rddId,sender) | 
blockManager. removeRdd ( rddlId ) 


| 


(4) 前 面 已 经 介绍 了 BlockManager 对 象 是 如 何 被 创建 出 来 的 ， 当 BlockManager 被 创建 
出 来 以 后 需要 向 client driver 注册 自己 ， 下 面 我 们 来 看 一 下 这 个 流程 。 

1) 首先 BlockManager 会 调用 initialize( ) 方 法 初始 化 自己 。 在 initialized( ) 方 法 中 首先 调 
用 BlockManagerMaster 回 client driver 注册 自身 ， 可 以 看 到 在 注册 自身 的 时 候 向 client driver ££ 
B S AAW slaveActor, client driver 收 到 slaveActor 以 后 会 将 其 与 之 对 应 的 BlockManagerInfo f£ 
储 到 hash map 中 ， 以 便 后 续 通 过 slaveActor [5] executor RIMS o 


def initialize( appld: String) ; Unit = | 


blockTransferService. init( this ) 
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shuffleClient. init( appld) 


blockManagerld = BlockManagerld( 
executorld , blockTransferService. hostName , blockTransferService. port ) S 


shuffleServerld = if ( externalShuffleServiceEnabled) | 
BlockManagerld ( executorld , blockTransferService. hostName , externalShuffleServicePort ) 
| else | 
blockManagerld 
| 
// 调 用 BlockManagerMater [8] Client Driver 注册 自己 


master. registerBlock Manager( block Managerld, maxMemory , slaveActor ) 


// Register Executors 'configuration with the local shuffle service,if one should exist. 
if ( extemalShuffleServiceEnabled && ! blockManagerld. isDriver) | 
registerWithExternalShuffleServer( ) 


| 


2) BlockManagerMaster 会 将 注册 请 求 包装 成 RegisterBlockManager 报 文 发 送 给 client driv- 
er 的 BlockManagerMasterActor, 


/ ** Register theBlockManager 's id with the driver. */ 
def registerBlockManager ( blockManagerld: BlockManagerld, maxMemSize: Long, slaveActor: 
ActorRef) | 

logInfo( " Trying to register BlockManager" ) 

tell ( RegisterBlockManager( blockManagerld ,maxMemSize , slaveActor) ) 

logInfo( " Registered BlockManager" ) 


| 
3) Client Driver 端的 BlockManagerMasterActor 调用 register( ) 方 法 注册 BlockManager。 


private def register(id: BlockManagerld, maxMemSize: Long,slaveActor: ActorRef) | 
val time = System. currentTimeMillis( ) 
if (! blockManagerlnfo. contains(id) ) | 
blockManagerldByExecutor. get( id. executorld) match | 
case Some(oldId) => 
// A block manager of the same executor already exists ,so remove it (assumed dead) 
logError( " Got two different block manager registrations on same executor — " 
+s" will replace old one$oldId with new one$id" ) 
removeExecutor( id. executorld ) 
case None => 
| 
logInfo( " Registering block manager 96 s with 96s RAM,%s". format( 
id. hostPort , Utils. bytesToString( maxMemSize ) ,id) ) 
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blockManagerldByExecutor( id. executorld) = id 
/ / BlockManagerlInfo 对 象 被 创建 并 保存 在 hash map 中 
blockManagerInfo( id) = new BlockManagerInfo( 


id , System. currentTimeMillis( ) , maxMemSize , slave Actor ) 


| 


listenerBus. post( SparkListenerBlock ManagerAdded( time ,id, maxMemSize ) ) 


| 

需要 注意 的 是 在 Client Driver 端 也 会 执行 上 述 过 程 ， 只 是 在 最 后 注册 的 时 候 如 采 判 断 
是 "< driver > ”就 不 进行 任何 操作 。 在 上 述 代码 的 倒数 第 5 行 可 以 看 到 对 应 的 BlockMana- 
gerInfo 对 象 被 创建 并 保存 在 hash map (MAK) 中 。 

2. Storage 模块 存储 层 

在 RDD 层面 上 我 们 了 解 到 RDD 是 由 不 同 的 partition 组 成 的 ， 我们 所 进行 的 transforma- 
tion 操作 和 action 操作 是 在 partition 上 面 进行 的 ; 而 在 Storage 模块 内 部 ，RDD 又 被 视 为 由 不 
同 的 block 组 成 ， 对 于 RDD 的 存 取 是 以 block 为 单位 进行 的 ， 本 质 上 partition 和 block 是 等 价 
的 ， 只 是 看 待 的 角度 不 同 。 在 Spark storage 模块 中 存 取 数据 的 最 小 单位 是 block ， 所 有 的 操 
作 都 是 以 block 为 单位 进行 的 。 

(1) BlockManager 对 象 被 创建 的 时 候 会 创建 出 MemoryStore 和 DiskStore 对 象 用 以 存 取 
block Łk, 


valdiskBlock Manager = new DiskBlockManager( this , conf) 
private[ spark] valmemoryStore = new MemoryStore( this, maxMemory) 


private[ spark | valdiskStore = new DiskStore( this , disk BlockManager ) 


(2) 同时 在 BlockManager 的 initialize( ) 方 法 中 启动 BlockManagerWorker 对 象 的 Actor 用 
以 监听 远程 的 block 存 取 请 求 来 进行 相应 处 理 。 


def initialize( appld; String) ; Unit = | 
block TransferService. init ( this ) 


blockManagerld = BlockManagerld ( 
executorld , blockTransferService. hostName , blockTransferService. port ) 
//slaveActor 即 是 BlockManagerWorker 对 象 的 Actor 


master. registerBlockManager( blockManagerld , maxMemory , slaveActor) 


| 


5.4.2 缓存 实现 原理 | 


缓存 分 为 DiskStore( 人 磁盘 存储 ) 和 MemoryStore( 内 存 存 储 ) 两 种 存储 方式 ， 下 面 我 们 通过 
Spark 的 源 代码 分 别 介绍 它 们 如 何 实现 Block (数据 块 ) 的 存储 和 获取 以 及 篆 用 的 缓存 策略 。 

1. DiskStore 如 何 存 取 Block ( 数据 块 ) 

(1) DiskStore( 磁盘 ) 可 以 配置 多 个 folder( 文件 夹 )，Spark 会 在 不 同 的 folder 下 面 创建 
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Spark 文件 夹 ， 文 件 夹 的 命名 方式 为 (spark — local - yyyyMMddHHmmss - xxxx，xxxx 是 一 个 随 
机 数 ) ， 所 有 的 block 都 会 存储 在 Spark 集群 所 创建 的 folder 里 面 。DiskStore 会 在 对 象 被 创建 
时 调用 DiskBlockManager 的 createLocalDirs (conf) 方法 来 创建 文件 来。 下面 我 们 看 一 下 具体 
的 源码 实现 。 > 


private[ spark | classDiskBlock Manager( block Manager: BlockManager,conf: SparkConf) 
extends Logging | 


/ * Create one local directory for each path mentioned in spark. local. dir; then ,inside this 
* directory , create multiple subdirectories that we will hash files into ,in order to avoid 
* having really largeinodes at the top level. */ 


private[ spark | vallocalDirs; Array| File] = createLocalDirs( conf) 


| 
打开 createLocalDirs( conf) 方 法 ， 里 面 是 创建 文件 夹 的 具体 实现 。 


private defcreateLocalDirs( conf; SparkConf) : Array| File] = | 
valdateFormat = new SimpleDateFormat( " yyyy MMddHHmmss" ) 
Utils. getOrCreateLocalRootDirs ( conf). flatMap | rootDir => 
varfoundLocalDir - false 
varlocalDir: File = null 
varlocalDirld; String = null 
var tries =0 
val rand = new Random( ) 
while ( ! foundLocalDir && tries < MAX, DIR, CREATION. ATTEMPTS) | 
tries += 1 
try | 
localDirld =" 96 s — % 04x". format( dateFormat. format( new Date) ,rand. nextInt( 65536 ) ) 
localDir = new File( rootDir , s" spark — local -$localDirld" ) 
if ( ! localDir. exists) | 
foundLocalDir = localDir. mkdirs( ) 
| 
| catch | 
case e: Exception => 


logWarning( s" Attempt$tries to create local dir$localDir failed" ,e) 


| 
if (! foundLocalDir) | 


logError( s" Failed $MAX, DIR. CREATION. ATTEMPTS attempts to create local dir in$rootDir. " + 
" Ignoring this directory. " ) 
None 
| else | 


logInfo( s" Created local directory at$localDir" ) 
Some( localDir) 
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| 


(2) 在 DiskStore 里 面 ， 每 一 个 block 都 被 存储 为 一 个 fle (文件 ) ， 通 过 计算 block id 的 
hash 值 将 block 映射 到 文件 中 ，block id 与 文件 路 径 的 映射 关系 如 下 所 示 ( DiskBlockManager 
的 getFile 方法 ) ; 


defgetFile( blockId; BlockId) : File = getFile( blockId. name) 


defgetFile( filename; String) : File = | 
// Figure out which local directory it hashes to, and which subdirectory in that 
val hash = Utils. nonNegativeHash ( filename ) 
valdirld = hash % localDirs. length 
valsubDirld = ( hash / localDirs. length) % subDirsPerLocalDir 


// Create the subdirectory if it doesn 't already exist 
varsubDir = subDirs( dirld) ( subDirld) 
if ( subDir == null) | 
subDir = subDirs( dirld). synchronized | 
val old = subDirs( dirld) ( subDirld ) 
if (old ! =null) | 
old 
| else | 
valnewDir = new File( localDirs( dirld) ," % 02x". format( subDirld) ) 
newDir. mkdir( ) 
subDirs ( dirld) ( subDirld) = newDir 


newDir 


new File( subDir , filename ) 


| 


从 以 上 代码 看 出 ， 传 递 每 个 block 块 的 block id 给 getFile 方法 ， 然 后 调用 Utils. nonNegative- 
Hash (filename) 方法 计算 出 hash 值 ， 将 hash 取 模 获得 两 个 变量 dirld 和 subDirId， 在 数组 
subDirs 中 找 出 相应 的 subDir， 奉 没有 则 新 建 一 个 subDir， 最 后 以 subDir HE, block id 为 
文件 名 创建 file handler (文件 处 理 占 )。 

(3) DiskStore 使 用 此 file handler 将 block 写 入 文件 内 ， 实 现代 码 在 DiskStore 类 的 put- 
Bytes 方法 中 ， 如 下 所 示 。 


override defputBytes(blockId; BlockId,_bytes; ByteBuffer,level: StorageLevel) ; PutResult = | 
// So that we do not modify the input offsets ! 
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// duplicate does not copy buffer ,so inexpensive 

val bytes 2. bytes. duplicate( ) 

logDebug( s" Attempting to put block $blockId" ) 

valstartTime = System. currentTimeMillis > 
val file = diskManager. getFile( blockId ) 

val channel = newFileOutputStream( file). getChannel 

while (bytes. remaining >0) | 


channel. write( bytes ) 


| 
channel. close( ) 
valfinishTime = System. currentTimeMillis 
logDebug( " Block 96s stored as 96s file on disk in 96 d ms". format( 
file. getName , Utils. bytesToString( bytes. limit) , finishTime - startTime) ) 
PutResult( bytes. limit( ) , Right( bytes. duplicate( ) ) ) 
| 


(4) 获取 block 则 非常 简单 ， 找 到 相应 的 文件 并 读 取 出 来 即 可 ， 实 现代 码 在 DiskStore 类 
的 getBytes 方法 中 ， 如 下 所 示 。 


override defgetBytes( blockId; BlockId) : Option[ ByteBuffer] = | 
val file = diskManager. getFile( blockId. name ) 
getBytes (file ,0, file. length) 

| 


在 DiskStore 中 存 取 block 首先 是 要 将 block id 映射 成 相应 的 文件 路 径 ， 接 着 存 取 文 件 就 
可 以 了 。 

2. MemoryStore 如 何 存 取 Block ( 数据 块 ) 

(1) 相对 于 DiskStore 需要 根据 block Id 的 hash 值 来 计算 出 文件 路 径 并 将 block 存放 到 对 
应 的 文件 里 面 ，MemoryStore 管理 block 就 显得 非常 简单 : MemoryStore 内 部 维护 了 一 个 hash 
map 来 管理 所 有 的 block, PA block id 为 key 将 block 存放 到 hash map o block 的 内 容 被 封装 
仅 一 个 结构 体 MemoryEntry。 


private case classMemoryEntry( value; Any,size: Long,deserialized: Boolean) 


/ x 
* Stores blocks in memory, either as Arrays ofdeserialized Java objects or as 
* serializedByteBuffers. 
*/ 
private[ spark | classMemoryStore( block Manager: BlockManager ,maxMemory; Long) 
extendsBlockStore(blockManager) | 


private val conf = blockManager. conf 


private val entries = newLinkedHashMap| BlockId , MemoryEntry | (32 ,0. 75f, true) 
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(2) 在 MemoryStore 中 存放 block 必须 确保 内 存 足 够 容纳 下 该 block ，JVM 默认 是 60% 可 
被 内 存 缓存 用 来 存储 block ， 当 存储 的 内 容 超过 60% 时 ，Spark 会 根据 配置 的 缓存 策略 来 决 
定 是 丢弃 一 些 block 还 是 将 一 些 block 存储 到 磁盘 上 。 具 体 的 实现 代码 在 Spark 源码 的 Memo- 
ryStore 类 的 putArray 方法 中 ， 如 下 所 示 。 


override defputArray ( 

blockId: Blockld, 
values; Array| Any], 
level : StorageLevel , 
returnValues; Boolean) : PutResult = | 

if (level. deserialized) | 
valsizeEstimate = SizeEstimator. estimate( values. asInstanceOf| AnyRef | ) 
valputAttempt = tryToPut( blockld , values , sizeEstimate , deserialized = true ) 
PutResult ( sizeEstimate , Left( values. iterator) , putAttempt. droppedBlocks ) 

| else | 
val bytes = blockManager. dataSerialize( blocklId, values. iterator) 
valputAttempt = tryToPut( blocklId , bytes , bytes. limit , deserialized = false) 
PutResult( bytes. limit( ) , Right( bytes. duplicate( ) ) , putAttempt. droppedBlocks ) 


| 
(3) 在 MemoryStore 类 的 tryToPut( ) 方 法 中 ， 首 先 调用 ensureFreeSpace( ) 方法 确保 空闲 
内 存 是 否 足以 容纳 block， 若 可 以 则 将 该 block 放 入 hash map 中 进行 管理 ， 若 不 足以 容纳 则 
通过 调用 dropFromMemory( ) 方 法 将 block 写 人 文件 。 


private deftryToPut( 
blockId: Blockld, 
value: Any, 
size: Long, 


deserialized: Boolean) ; ResultWithDroppedBlocks = | 


varputSuccess - false 


valdroppedBlocks = new ArrayBuffer[ ( BlockId , BlockStatus ) | 


accountingLock. synchronized | 
valfreeSpaceResult = ensureFreeSpace( blockld , size ) 
valenoughFreeSpace = freeSpaceResult. success 


droppedBlocks + += freeSpaceResult. droppedBlocks 


if ( enoughFreeSpace) | 
val entry = newMemoryEntry ( value ,size , deserialized ) 
entries. synchronized | 
entries. put( blockld , entry ) 


currentMemory += size 
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| 
valvaluesOrBytes = if ( deserialized) "values" else "bytes" 
logInfo( " Block % s stored as 96s in memory (estimated size 96 s,free % s)". format( 
blocklId , valuesOrBytes , Utils. bytesToString( size) , Utils. bytesToString( freeMemory ) ) ) 
putSuccess = true e 
| else | 
// Tell the block manager that we couldn 't put it in memory so that it can drop it to 
// disk if the block allows disk storage. 
val data = if ( deserialized) | 
Left( value. asInstanceOf| Array[ Any | | ) 
| else | 
Right( value. asInstanceOf| ByteBuffer |. duplicate( ) ) 
| 
valdroppedBlockStatus = blockManager. dropFromMemory ( blockId data ) 
droppedBlockStatus. foreach | status => droppedBlocks += ( ( blockId, status) ) | 


| 
ResultWithDroppedBlocks ( putSuccess , droppedBlocks ) 


| 


(4) 从 MemoryStore 中 取得 block 则 非常 简单 ， 只 需 从 hash map 中 取出 block Id 对 应 的 
value 即 可 ， 具 体 实现 代码 在 MemoryStore 类 的 getValues( ) 方 法 中 。 


override defgetValues(blockId; BlockId) ; Option[ Iterator[ Any] ] = | 
val entry = entries. synchronized | 
entries. get( blockId ) 
| 
if (entry == null) | 
None 
| else if ( entry. deserialized) | 
Some( entry. value. asInstanceOf| Array[ Any | ]. iterator) 
| else | 
val buffer = entry. value. asInstanceOf[ ByteBuffer |. duplicate( ) // Doesn 't actually copy data 
Some( blockManager. dataDeserialize ( blocklId , buffer ) ) 
| 
| 


3. 通过 BlockManager 来 存 取 (Put or Get) Block (数据 块 ) 

上 面 介绍 了 DiskStore 和 MemoryStore 对 于 block 的 存 取 操作 ， 那 么 我 们 是 要 直接 与 它们 
交互 存 取 数 据 吗 ， 还 是 封闭 了 更 抽象 的 接口 使 我 们 无 需 关 心底 层 ? BlockManager 为 我 们 提供 
了 doPut() fH get( ) 艺 数 ， 用 户 可 以 使 用 这 两 个 函数 对 block 进行 存 取 而 无 需 关 心底 层 实 现 。 

(1) 对 于 doPut( ) 操 作 ， 主 要 分 为 以 下 3 个 步骤 : 为 block 创建 BlockInfo 结构 体 存储 
block 相关 信息 ， 同 时 将 其 加 锁 使 其 不 能 被 访问 ; 根据 block 的 storage level 将 block 存储 到 内 
存 或 是 磁盘 上 ， 同 时 解锁 标识 该 block 已 经 ready， 可 被 访问 ; 根据 block 的 replication 数 决 


pA 


定 是 否 将 该 block 复制 到 远 端 。 首 先 我 们 来 看 一 下 BlockManager 的 doPut ( ) 函数 的 实现 : 


private defdoPut( 
blockId; Blockld, 
data: BlockValues, 
level: StorageLevel, 
tellMaster: Boolean = true, 
effectiveStorageLevel: Option| StorageLevel | = None) 
:Seq[ (BlockId ,BlockStatus) | = | 


require( blockld ! =null,"Blockld is null" ) 
require( level | = null && level. isValid," StorageLevel is null or invalid" ) 
effectiveStorageLevel. foreach | level => 


require( level | = null && level. isValid," Effective StorageLevel is null or invalid" ) 


// Return value 
valupdatedBlocks = new ArrayBuffer| ( BlockId , BlockStatus ) | 
// Jj block 创建 BlockInfo 结构 体 存储 block 相关 信息 
valputBlockInfo = | 
valtinfo = new BlockInfo( level , tellMaster ) 
valoldBlockOpt = blockInfo. putIfAbsent ( blockId , tinfo ) 
if ( oldBlockOpt. isDefined) | 
if ( oldBlockOpt. get. waitForReady( ) ) | 
logWarning( s" Block$blockId already exists on this machine; not re — adding it" ) 
returnupdatedBlocks 
| 
oldBlockOpt. get 
| else | 


tinfo 


valstartTimeMs = System. currentTimeMillis 
varvaluesAfterPut: Iterator| Any | = null 


// Ditto for the bytes after the put 
varbytesAfterPut; ByteBuffer = null 


// Size of the block in bytes 


var size =OL 
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// The level we actually use to put the block 
valputLevel = effectiveStorageLevel. getOrElse ( level ) 


// M we 're storing bytes ,then initiate the replication before storing them locally. 
// This is faster as data is already serialized and ready to send. © 
valreplicationFuture = data match | 
case b: ByteBufferValues if putLevel. replication > 1 => 
// Duplicate doesn '3 't copy the bytes, but just creates a wrapper 
valbufferView = b. buffer. duplicate( ) 
Future | replicate( blockId , bufferView,putLevel) | 


case  —-» null 


putBlockInfo. synchronized | 
logTrace( " Put for block 96s took 96s to get into synchronized block" 
. format( blockId , Utils. getUsedTimeMs( startTimeMs ) ) ) 


var marked - false 
try | 

/ / return Values — Whether to return the values put 

/ / blockStore - The type of storage to put these values into 

val ( returnValues , blockStore; BlockStore) = | 

// 根 据 block 的 storage level 将 block 存储 到 内 存 或 是 磁盘 上 

if ( putLevel. useMemory) | 

// Put it in memory first , even if it also hasuseDisk set to true; 
// We will drop it to disk later if the memory store can 't hold it. 
( true , memoryStore ) 
else if ( putLevel. useOffHeap) | 
// Use tachyon for off — heap storage 


( false , tachyonStore ) 


else if ( putLevel. useDisk) | 

// Don 't get back the bytes from put unless we replicate them 
( putLevel. replication > 1, diskStore ) 

| else | 

assert ( putLevel == StorageLevel. NONE) 

throw newBlockException( 


blockId,s" Attempted to put block $blockId without specifying storage level!" ) 


// Actually put the values 
val result = data match | 


caselteratorValues( iterator) => 
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blockStore. putlterator( blockId , iterator , putLevel , returnValues ) 
caseArray Values( array) => 
blockStore. putArray ( blockId , array , putLevel , return Values ) 
caseByteBufferValues( bytes) 2» 
bytes. rewind( ) 
blockStore. putBytes ( blockId , bytes , putLevel ) 
| 
size = result. size 
result. data match | 
case Left (newlterator) if putLevel. useMemory => valuesAfterPut = newlterator 
case Right (newBytes) => bytesAfterPut = newBytes 


case _ => 


// Keep track of which blocks are dropped from memory 
if ( putLevel. useMemory) | 
result. droppedBlocks. foreach | updatedBlocks += | 


valputBlockStatus = getCurrentBlockStatus ( blockId , putBlockInfo ) 
if ( putBlockStatus. storageLevel ! = StorageLevel. NONE) | 
// Now that the block is in either the memory ,tachyon ,or disk store, 
// let other threads read it, and tell the master about it. 
marked - true 
putBlockInfo. markReady ( size ) 
if (tellMaster) | 
reportBlockStatus ( blockId , putBlockInfo , putBlockStatus ) 
| 
updatedBlocks += ( ( blockId , putBlockStatus ) ) 
| 
| finally | 
// M we failed in putting the block to memory/ disk , notify other possible readers 
// that it has failed, and then remove it from the block info map. 
if ( ! marked) | 
// Note that the remove must happen beforemarkFailure otherwise another thread 
// could 've inserted a newBlockInfo before we remove it. 
blockInfo. remove( blocklId ) 
putBlockInfo. markFailure( ) 
logWarning( s" Putting block $blockId failed" ) 


| 
logDebug( " Put block % s locally took 96 s". format( blockId , Utils. getUsedTimeMs( startTimeMs) ) ) 
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// 根 据 block 的 replication 数 决定 是 否 将 该 block 4 rill luci 
if ( putLevel. replication »1) | 
data match | 
caseByteBufferValues( bytes) 2» 
if ( replicationFuture ! = null) | 
Await. ready ( replicationFuture , Duration. Inf) 
| 
case _ => 
valremoteStartTime = System. currentTimeMillis 
// Serialize the block if not already done 
if ( bytesAfterPut == null) | 
if ( valuesAfterPut == null) | 
throw newSparkException ( 
"Underlying put returned neither anlterator nor bytes! This shouldn 't happen. " ) 


| 
bytesAfterPut = dataSerialize( blockId , valuesAfterPut ) 


| 
replicate( blockld , bytesAfterPut , putLevel ) 
logDebug( " Put block 96s remotely took % s" 
. format( blockId , Utils. getUsedTimeMs ( remoteStartTime ) ) ) 


BlockManager. dispose( bytesAfterPut ) 


if ( putLevel. replication >1) | 
logDebug( " Putting block 96s with replication took 96 s" 
. format( blockId , Utils. getUsedTimeMs ( startTimeMs ) ) ) 
| else | 
logDebug( " Putting block 96s without replication took 96 s" 
. format( blockId , Utils. getUsedTimeMs( startTimeMs ) ) ) 


updatedBlocks 
| 


(2) 接着 我 们 来 看 一 下 BlockManager 类 的 get ( ) 方法 的 实现 : 


def get( blockId: BlockId) ; Option[ BlockResult | = | 
val local = getLocal( blockId ) 
if (local. isDefined) | 
logInfo( s" Found block $blockId locally" ) 


return local 
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| 


val remote = getRemote( blockId ) 
if (remote. isDefined) | 
logInfo( s" Found block $blockId remotely" ) 


return remote 


None 


get( ) 方 法 首先 会 从 本 地 (local) 的 BlockManager 中 查找 block， 如 来 找到 则 返回 相应 的 
block ， 知 本 地 没有 找到 该 block， 则 发 起 请 求 从 其 他 的 executor 上 的 BlockManager 中 查找 
block。 在 通常 情况 下 Spark 任务 的 分 配 是 根据 block 的 分 布 决定 的 ， 任 务 往往 会 被 分 配 到 拥 
有 block 的 结 点 上 ， 因 此 getLocal( ) 就 能 找到 所 需 的 block; 但 是 在 资源 有 限 的 情况 下 ，Spark 
会 将 任务 调度 到 与 block 不 同 的 结 点 上 ， 这 样 就 必须 通过 getRemote( ) 来 获得 block, 

(3) 我 们 继续 跟踪 这 个 get ) 方 法 里 对 getLocal( ) 方 法 的 调用 ， 这 个 方法 是 从 本 地 获取 
block, getLocal 源 代 码 实现 如 下 : 


/ xk 


* Get block from local block manager. 

* / 
defgetLocal(blockId; BlockId) : Option| BlockResult | = | 

logDebug( s" Getting local block $blockId" ) 

doGetLocal( blockId , asBlockResult = true). asInstanceOf[ Option| BlockResult | | 
| 


在 getLocal( ) 方 法 里 会 继续 调用 doGetLocal( ) 方 法 ,在 doGetLocal ( ) 方 法 里 首先 会 根据 
block id 获得 相应 的 BlockInfo 并 从 中 取出 该 block 的 storage level， 根 据 storage level 的 不 同 ， 
doGetLocal( ) 会 从 不 同 的 绥 存 中 取出 数据 。 

(4) 在 BlockManager 类 的 get ( ) 方 法 里 通过 getRemote ( ) 方 法 从 远 端 获取 block, ge- 
tRemote( ) 方 法 里 面 会 调用 doGetRemote( ) ， 在 doGetRemote ( ) 方 法 里 首先 取得 该 block 的 所 
有 location 信息 ， 然 后 根据 location 回 远 端 发 送 请 求 获 取 block ， 只 要 有 一 个 远 端 返回 block 该 
孔 数 就 返回 而 不 继续 发 送 请 求 。 接 下 来 我 们 来 看 一 下 doGetRemote( ) 方 法 的 具体 实现 : 

private defdoGetRemote( blockId; BlockId,asBlockResult; Boolean) : Option[ Any | = | 


require( blockId ! = null," BlockId is null" ) 
val locations = Random. shuffle( master. getLocations ( blockId ) ) 


for (loc «- locations) | 
logDebug( s" Getting remote block $blockId from $loc" ) 
val data = blockTransferService. fetchBlockSync( 
loc. host , loc. port, loc. executorld , blockId. toString). nioByteBuffer( ) 


if (data ! 2 null) | 
if ( asBlockResult) | 


return Some ( newBlockResult( 
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dataDeserialize( blockId , data) , 
DataReadMethod. Network , 
data. limit( ) ) ) 


| else | > 
return Some ( data) 


| 
| 
logDebug( s" The value of block $blockId is null" ) 


| 
logDebug( s" Block $blockId not found" ) 
None 


| 


至 此 我 们 简单 介绍 了 如 何 通过 BlockManager 类 中 的 get( ) 方 法 和 put( ) 方 法 来 轻易 地 存 
取 block 数据 。 

4. Partition 和 Block 的 关系 

在 Storage (存储 管理 ) 模块 里 面 所 有 的 操作 都 是 和 Block (数据 块 ) 相关 的 ， 但 是 在 
RDD 里 面 所 有 的 运算 都 是 基于 Partition (分 区 ) HY, ABA Partition 是 如 何 与 Block 对 应 上 的 
呢 ? 在 Spark F, Partition 是 一 个 逻辑 上 的 概念 ， 而 Block 是 一 个 物理 上 的 数据 实体 。 一 个 
RDD 中 的 Partition 对 应 于 一 个 Storage 模块 中 的 Block。 下 面 我 们 以 RDD 类 的 核心 方法 itera- 
tor( ) 方 法 为 例 分 析 一 下 Partition 和 Block 的 关系 ， 以 下 是 RDD 类 中 iterator( ) 方 法 的 实现 : 


final defiterator( split; Partition, context; TaskContext) ; Iterator[ T] = | 
if (storageLevel | =StorageLevel. NONE) | 
SparkEnv. get. cacheManager. getOrCompute ( this , split , context , storageLevel ) 
| else | 
computeOrReadCheckpoint ( split , context ) 
| 
| 


在 以 上 代码 中 ， 如 果 当 前 RDD 的 StorageLevel 不 是 NONE 的 话 ， 表 示 该 RDD 所 包括 的 一 系 
列 Partition 以 Block 的 状态 存储 在 BlockManager 中 ， 那 么 通过 SparkEnv. get. cacheManager 得 到 
CacheManager 对 象 ， 然 后 调用 CacheManagerr 中 的 getOrCompute( ) 方 法 计算 RDD， 在 这 个 方法 中 
Partition 和 Block 发 生 了 关系 ，Partition 转化 为 Block， 上 有 具体 步骤 如 下 : 

(1) 首先 根据 RDD id 和 Partition index 构造 出 Block id (rdd_xx_xx) ， 接 着 从 BlockMan- 
ager 中 取出 相应 的 Block, 

(2) 如 果 该 Block 存在 ， 表 示 此 RDD 在 之 前 已 经 被 计算 过 和 存储 在 BlockManager 中 ， 
因此 取出 即 可 ， 无 需 青 重新 计算 。 

(3) 如 果 该 Block 不 存在 则 需要 调用 RDD 的 computeOrReadCheckpoint( ) 方法 计算 出 新 
的 Block， 并 将 其 存储 到 BlockManager 中 。 

(4) 需要 注意 的 是 Block 的 计算 和 存储 是 阻塞 的 ， 奉 男 一 线程 也 需要 用 到 此 Block 则 需 
等 到 该 线程 Block 的 装载 结 

这 样 RDD 的 transformation 操作 、action 操作 就 和 Block 数据 块 建立 了 联系 ， 虽然 抽象 上 
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我 们 的 操作 是 在 Partition 层面 上 进行 的 ， 但 是 Partition 最 终 还 是 被 映射 成 为 Block ， 因 此 实际 
上 我 们 的 所 有 操作 都 是 对 Block 的 处 理 和 存 取 。 


5.4.5 缓存 东 略 | 


虽然 Spark 是 基于 内 存 进行 计算 ， 但 RDD 的 数据 集 不 仅 可 以 存储 在 内 存 中 ， 还 可 以 使 
用 RDD 类 的 persist 方法 和 cache 方法 将 RDD 的 数据 集 缓 存 到 内 存 、 磁 盘 或 者 Tachyon 文件 
系统 中 。 下 面 我 们 看 一 下 persist 方法 和 cache 方法 的 源 代 码 ， 对 其 特点 做 一 下 分 析 。 
def persist( newLevel; StorageLevel) this. type = | 


// TODO: Handle changes ofStorageLevel 
if (storageLevel | =StorageLevel. NONE && newLevel ! = storageLevel) | 


throw new UnsupportedOperationException ( 


" Cannot change storage level of an RDD after it was already assigned a level" ) 


| 

sc. persist RDD( this) 

// Register the RDD with theContextCleaner for automatic GC — based cleanup 
sc. cleaner. foreach( _. registerRDDForCleanup( this) ) 

storageLevel 2 newLevel 

this 


| 


由 persist 方法 的 注释 我 们 知道 ， 当 RDD 第 一 次 被 计算 时 ，persist 方法 会 根据 参数 Stor- 
ageLevel 的 设置 采取 特定 的 缓存 策略 。 它 只 适合 于 原本 StorageLevel 的 变量 为 None 或 者 新 传 
递 进 来 的 StorageLevel 值 与 原来 的 StorageLevel 值 相 等 的 情况 。persist 操作 是 control 操作 的 一 
种 ， 它 只 是 改变 了 原 RDD 的 元 数据 信息 ， 并 没有 生成 新 的 RDD。 

对 于 cache 方法 而 言 ， 它 只 是 persist 方法 的 一 个 特例 ， 即 persist 方法 的 参数 为 MEMORY 
_ONLY 的 情况 。 我 们 可 以 看 下 cache 的 源码 。 


/ ** Persist this RDD with the default storage level ('MEMORY_ONLY '). */ 
def persist( ) : this. type = persist( StorageLevel. MEMORY, ONLY ) 


/ ** Persist this RDD with the default storage level ( (MEMORY ONLY '). */ 
def cache( ) : this. type = persist( ) 


根据 useDisk 〈 使 用 磁盘 ) . useMemory 〈 使 用 内 存 ) useOffHeap (使 用 Tachyon 文件 系 
统 ) deserialized 〈 反 序列 化 ) replication (文件 副本 数 ) 五 个 参数 的 组 合 ，Spark 提供 了 12 
种 存储 级 别 的 缓存 策略 ， 这 可 以 使 我 们 能 将 RDD 持久 化 到 内 存 、 人 磁盘， 或 者 是 以 序列 化 的 
方式 持久 化 到 内 存 中 ， 其 至 可 以 在 集群 的 不 同 结 点 之 间 存 储 多 份 复制 。 这 些 绥 存 策略 部 被 包 


含 在 类 org. apache. spark. storage. StorageLevel 中 。 


objectStorageLevel | 
val NONE = newStorageLevel ( false , false , false , false ) 
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val DISK, ONLY = newStorageLevel( true false, false , false ) 
val DISK ONLY 2 = newStorageLevel ( true , false, false , false ,2 ) 
val MEMORY, ONLY = newStorageLevel ( false , true , false , true ) 
val MEMORY, ONLY 2 = newStorageLevel( false , true , false , true ,2 ) 
val MEMORY ONLY SER = newStorageLevel ( false , true , false , false ) 
val MEMORY ONLY SER 2 = newStorageLevel( false , true , false , false ,2 ) 
val MEMORY, AND DISK = newStorageLevel( true, true, false , true ) 
val MEMORY, AND DISK 2 = newStorageLevel( true ,true , false , true ,2 ) 
val MEMORY, AND DISK, SER = newStorageLevel ( true , true , false , false ) 
val MEMORY, AND DISK, SER 2 = newStorageLevel( true , true , false , false ,2 ) 
val OFF HEAP = newStorageLevel ( false , false , true , false ) 

| 


可 选用 的 存储 级 别 如 表 5-1 所 示 。 


# 5-1 存储 级 别 
存储 级 别 fü ” xt 


将 RDD 作为 反 序 列 化 的 对 象 存储 JVM 中 。 如 果 RDD 不 能 被 内 存 装 下 ， 一 些 分 区 将 


ALONE 不 会 被 缓存 ， 并 且 在 需要 的 时 候 被 重新 计算 。 这 是 默认 的 级 别 


将 RDD 作为 反 序 列 化 的 对 象 存储 在 JVM 中 。 如 果 RDD 不 能 被 内 存 装 下 ， 超 出 的 分 


MEMORY AND MS 区 将 被 保存 在 硬盘 上 ， 并 且 在 需要 时 被 读 取 


MEMORY_ONLY_SER 将 RDD 作为 序列 化 的 对 象 进行 存储 〈 每 一 分 区 占用 一 个 字 节 数组 ) 
与 MEMORY_ONLY_SER 相似 ,但 是 把 超出 内 存 的 分 区 将 存储 在 硬盘 上 而 不 是 在 每 
MEMORY AND DISK SER 次 需要 的 时 候 重新 计算 
DISK. ONLY 只 将 RDD 分 区 存储 在 硬盘 上 
DISK ONLY 2 与 上 述 的 存储 级 别 一 样 ， 但 是 将 每 一 个 分 区 都 复制 到 两 个 集群 结 点 上 
OFF HEAP 将 RDD 存储 到 分 布 式 内 存 文件 系统 Tachyon 中 


存储 级 别 选择 原则 如 下 : 

Spark 的 不 同 存 储 级 别 ， 旨 在 满足 内 存 使 用 和 CPU 效率 权衡 上 的 不 同 需 求 。 建 议 通 过 以 
下 步 又 来 进行 选择 : 

(1) WI RDD 可 以 很 好 的 与 默认 的 存储 级 别 MEMORY_ONLY 站 合 ， 就 不 需要 做 任何 
调整 ， 这 已 经 是 CPU 使 用 效率 最 高 的 选项 ， 它 使 得 RDD 的 操作 尽 可 能 的 快 。 

(2) 如 果 RDD 无 法 与 默认 的 存储 级 别 MEMORY, ONLY RG, WA H] MEMORY_ON- 
LY_SER， 并 且 选 择 一 个 快速 序列 化 的 库 使 得 对 象 在 比较 高 的 空间 使 用 率 下 ， 依 然 可 以 较 快 
的 被 访问 。 

(3) RDD 尽 可 能 的 不 要 存储 在 人 硬盘 中 ， 除 非 计算 数据 集 的 函数 计算 量 特别 大 ， 或 者 这 
些 函 数 过 滤 了 大 量 的 数据 ， 否 则 重新 计算 一 个 分 区 的 速度 和 从 与 硬盘 中 读 取 基本 差不多 快 。 

(4) Spark 默认 存储 策略 为 MEMORY ONLY: 只 缓存 到 内 存 并 且 以 原生 方式 存 〈 反 序 
AME) 一 个 副本 。 

(5) MEMORY AND DISK 存储 级 别 在 内 存 够 用 时 直接 保存 到 内 存 中 ， 只 有 当 内 人 存 不 足 
时 ， 才 会 存储 到 磁盘 中 。 

(6) 如 有 果 想 确保 高 效 的 容错 ， 除 了 依 徘 RDD 的 血统 重新 计算 丢失 的 分 区 ， 还 可 以 采用 


e 


> 
> a 
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replication 大 于 1 (也 即 多 份 复制 ， 这 个 replication 的 实际 值 可 以 通过 设置 StorageLevel 类 的 
成 员 _replication 来 实现 ) ， 到 时 可 以 直接 从 其 他 结 点 获取 数据 。 


EEF Spark 的 消息 传递 机 制 Akka 


JL Akka 架构 解析 


1. Akka 是 什么 

Akka 是 一 个 用 Scala 语言 编写 的 库 ， 可 用 于 简化 编写 容错 的 、 高 可 伸缩 性 的 Actor 模型 
应 用 。 它 分 为 开发 库 和 运行 环境 ， 同 时 提供 了 Scala 和 JAVA 的 开发 接口 ， 可 以 用 来 构建 高 
并 发 、 分 布 式 、 可 容错 、 事 件 驱 动 的 基于 JVM 的 应 用 。 

Akka 人 处理 并 发 的 方法 基于 一 个 并 发 模型 设计 和 架构 的 Actor 模型 。 在 基于 Actor 的 系统 
里 ， 所 有 的 事物 都 是 Actor, Actor 是 封装 了 状态 State MFT A (Behavior) 的 对 象 ，Actor 之 
间 共 至 信息 和 发 起 任务 的 机 制 是 消息 传递 ， 它 们 仅仅 通过 交换 消息 (messages) 实现 相互 通 
信 ， 这 些 消息 被 放置 到 收 件 人 的 邮箱 (Mailbox) 中 。 当 一 个 Actor 的 邮箱 (也 就 是 消息 队 
列 ) 收 到 其 他 Actor 发 送 过 来 的 消息 后 ，Akka 框架 会 结合 Scala 语言 强大 的 模式 匹配 功能 对 
消息 进行 处 理 。 它 先 建立 一 个 消息 队列 ， 每 次 收 到 消息 后 ， 就 放 入 队列 ， 而 它 每 次 也 从 队列 
中 取出 消息 体 来 处 理 (如 图 5-5 所 示 )。 通 党 部 使 得 这 个 过 程 是 循环 的 ， 让 Actor 可 以 时 刻 
处 理发 送 来 的 消息 。 更 深入 一 后 说 ，Akka 在 多 个 Actor 和 系统 底层 之 间 建 立 了 一 个 层次 
(Layer), ， 这 样 一 来 ，Actor 只 需要 处 理 消息 就 可 以 了 。 创 建 和 调度 线程 、 接 收 和 分 发 消息 以 
及 处 理 苑 态 条 件 和 同步 的 所 有 复杂 性 ， 部 委托 给 框架 ， 框架 的 处 理 对 应 用 来 说 是 透明 的 。 


Initialize the State 
and Behavior 


(初始 化 状态 和 行为 ) 


preStart 


(处 理 来 自 邮 
箱 的 信息 ) 


postStop 


ge 


Clean resource/ ,, 
Persist state (清除 结果 /固化 状态 ) 


图 5-5 Akka 的 生命 周期 图 


Akka 作为 一 个 轻 量 级 的 消息 驱动 系统 ， 有 五 大 特性 : 


第 5 章 Spark 的 运行 机 制 


(1) 易于 构建 并 行 和 分 布 式 应 用 (Simple Concurrency & Distribution) : 使 用 Actor, Hj 
可 以 异步 处 理 请 求 并 用 独占 的 方式 执行 非 阻塞 操作 。 

(2) 可 靠 性 (Resilient by Design) ， 系统 具 备 自 愈 能力， 在 本 地 /远程 都 有 监护 。 

(3) 高 性 能 (High Performance): 在 单机 中 每 秒 可 发 送 50000000 个 消息 。 内 存 占 用 小 ， > 
1GB 内 存 中 可 保存 2500000 个 Actor 对 象 。 

(4) 可 伸缩 性 (Extensible): 可 以 在 分 布 式 环境 下 进行 Scale out (横向 扩展 )， 线 性 扩 
充 计算 能 力 。 

(5) 弹性 ， 无 中 心 (Elastic - Decentralized): 自 适 应 的 负责 均衡 。 

2. Actor 系统 

在 基于 Actor 的 设计 里 ， 各 个 Actor 以 树 形 结构 组 织 起 来 ， 像 一 个 经 济 组 织 变 成 一 个 层 
级 结构 (如 图 5-6 所 示 )， 也 就 是 所 谓 的 Actor 系统 。Actor 系统 的 典型 特点 是 任务 拆 分 和 委 
派 ， 一 个 Actor 可 以 在 系统 监督 下 完成 特定 的 功能 ， 比 如 将 它 的 任务 分 解 成 更 小 ， 更 易于 管 
理 。 为 达到 目的 ， 它 启动 一 个 它 监 督 下 的 子 Actor (child Actor) 。 这 样 做 ， 不 仅 需 要 任务 本 


Supervisor 

Actor0 So 
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图 5-6 Akka 的 组 织 关 系 
吴 结 构 清 晰 ， 而 且 作 为 结果 的 Actor 也 必须 经 得 起 它们 要 处 理 的 消息 的 仔细 推 殴 ， 应 该 如 何 
处 理 正 浓 逻 辑 ， 又 如 何 处 理 失败 都 需要 仔细 的 推 殴 。 如 有 果 一 个 Actor 不 具备 处 理 某 种 特殊 场 
景 的 能 力 ， 它 会 发 送 一 个 相应 的 故障 信息 给 监管 者 来 寻求 帮助 。 递 归结 构 ， 人 允许 他 们 在 合适 
层次 上 处 理 失 败 的 消息 。 

在 Akka 里 面 ， 和 Actor 通信 的 唯一 方式 就 是 通过 ActorRef, ActorRef 代表 Actor 的 一 个 
引用 ， 可 以 阻止 其 他 对 象 直接 访问 或 操作 这 个 Actor 的 内 部 信息 和 状态 。 消 息 可 以 通过 一 个 
ActorRef 以 下 面 的 语法 协议 中 的 一 种 发 送 到 一 个 Actor: 

“|” 一 一 发 送 消息 并 立即 返回 。 
发 送 消息 并 返回 一 个 Future 对 象 , 代 表 一 个 可 能 的 应 答 。 

f Actor 都 有 一 个 收 件 箱 ， 用 来 接收 发 送 过 来 的 消息 。 收 件 箱 有 多 种 实现 方式 可 以 选 
择 ， 默 认 的 实现 是 先进 先 出 (FIFO) 队列 。 

Akka 的 Actor API 中 提供 了 每 个 Actor 执行 任务 所 需要 的 有 用 信息 : 

sender; 当前 处 理 消 息 的 发 送 者 的 一 个 ActorRef 引用 。 

context; Actor 运行 上 下 文 相关 的 信息 和 方法 (例如 ， 包 括 实例 化 一 个 新 Actor 的 方法 
ActorOf) , 
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self: Actor AEA ActorRef 引用 。 

3. Akka 的 容错 和 监管 者 策略 

在 Akka 里 面 ,一 个 监管 者 Actor 对 于 从 子孙 Actor 传递 上 来 的 异常 的 啊 应 和 处 理 方 式 称 
作 监管 者 策略 。 在 Actor 系统 里 ， 每 个 Actor 都 是 其 子孙 Actor 的 监管 者 。 如 果 Actor 处 理 消 
息 时 失败 ， 它 就 会 暂停 自己 及 其 子孙 Actor 并 发 送 一 个 消息 给 它 的 监管 者 ， 通常 是 以 异常 的 
形式 。 

当 一 条 消息 指示 有 一 个 错误 到 达 了 一 个 监管 者 ， 它 会 采取 如 下 行动 之 一 : 

(1) 恢复 子 Actor. (及 其 子孙 Actor) ， 保 持 内 部 状态 。 当 子 Actor 的 状态 没有 被 错误 破 
坏 ， 还 可 以 继续 正常 工作 的 时 候 ， 可 以 使 用 这 种 策略 。 

(2) 重启 子 Actor. (及 其 子孙 Actor) ， 清 除 内 部 状态 。 这 种 策略 应 用 的 场景 和 第 一 种 正 
好 相反 。 如 有 果子 Actor 的 状态 已 经 被 错误 破坏 ， 在 它 可 以 被 用 到 Future 之 前 有 必要 重 置 其 内 
部 状态 。 

(3) AKAM HF Actor 〈 及 其 子孙 Actor) 。 这 种 策略 可 以 用 在 下 面 的 场景 中 : 错误 条 
件 不 能 被 修正 ， 但 是 并 不 影响 后 面 执行 的 操作 ， 这 些 操作 可 以 在 失败 的 子 Actor 不 存在 的 情 


况 下 完成 。 
(4) 停 掉 上 自己 并 向 上 传播 错误 。 适 用 场景 : 当 监 管 者 不 知道 如 何 处 理 错 误 ， 就 把 错误 
传递 给 自己 的 监管 者 。 


而 且 ， 一 个 Actor 可 以 决定 是 否 把 行动 应 用 在 失败 的 子孙 Actor 上 抑或 是 应 用 到 它 的 兄 
弟 上 。 有 两 种 预定 义 的 策略 : 

1) OneForOneStrategy; 只 把 指定 行动 应 用 到 失败 的 子 Actor Eo 

2) AllForOneStrategy; 把 指定 行动 应 用 到 所 有 子孙 Actor 上 。 

4. 本 地 透明 性 

Akka 架构 支持 本 地 透明 性 ， 使 得 Actor 完全 不 知道 它们 接受 的 消息 是 从 哪里 发 出 来 的 。 
消息 的 发 送 者 可 能 驻 留 在 同一 个 JVM， 也 有 可 能 是 存在 于 其 他 的 JVM (或 者 运行 在 同一 个 
结 点 ， 或 者 运行 在 不 同 的 结 点 ) Akka 处 理 这 些 情 况 对 于 Actor (也 即 对 于 开发 者 ) 来 说 是 
完全 透明 的 。 唯 一 需要 说 明 的 是 跨越 结 点 的 消息 必须 要 被 序列 化 。 

最 后 ， 为 了 充分 发 挥 Akka 的 能 力 ， 在 设计 和 实现 系统 时 ， 有 些 要 点 值得 考虑 . 

(1) 应 尽 最 大 可 能 为 每 个 Actor 都 分 配 最 小 的 任务 。 

(2) Actor 应 该 异步 处 理 消 息 ， 不 应 该 阻塞 ， 否 则 就 会 发 生 上 下 文 切换 ， 影 响 性 能 。 具 
体 来 说 ， 最 好 是 在 一 个 Future 对 象 里 执行 阻塞 操作 (例如 10)， 这 样 就 不 会 阻塞 Actor; 

(3) 要 确认 你 的 消息 都 是 不 可 变 的 ， 因 为 互相 传递 消息 的 Actor 都 在 它们 自己 的 线程 里 
并 发 运行 。 可 变 的 消息 很 有 可 能 导致 不 可 预期 的 行为 。 

(4) 由 于 在 结 点 之 间 发 送 的 消息 必须 是 可 序列 化 的 ， 所 以 必须 要 记 住 消息 体 越 大 ， 订 
列 化 、 发 送 和 反 序 列 化 所 花费 的 时 间 就 越 多 ， 这 也 会 降低 性 能 。 


”Akka 驱动 下 的 start - all. sh 源码 解析 


在 Spark 中 各 个 模块 之 间 的 消息 传递 采用 的 就 是 Akka 框架 ,很 多 组 件 封 装 为 Actor， 进 
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ka 驱动 下 Master 结 点 和 Worker 结 点 之 间 的 通信 。 


(1) 我 们 首先 在 Spark 的 sbin 目录 下 用 vim 打开 “start - all. sh” 脚 本 。 可 以 看 到 在 文 
件 里 会 继续 调用 “start - master. sh” 脚本 和 “start - slaves. sh” 脚本 。 我 们 先 用 vim 打开 


"start — master. sh" 脚本 查看 里 面 的 内 容 。 


# Load the Spark configuration 
. "Ssbin/spark-config.sh" 


4 Start Master 
"Ssbin"/start-master.sh STACHYON STR 


# Start Workers 
llssbin"/start-slaves.sh STACHYON STR 


(2) 可 以 看 到 Start — master. sh 文件 里 会 用 “spark - daemon. sh” 脚本 开局 一 个 org. 


apache. spark. deploy. master. Master 进程 。 


吉 点 


. "Ssbin/spark-config.sh" 
. "SSPARK PREFIX/bin/load-spark-env.sh" 


if [ "SSPARK MASTER PORT" - "" ]; then 
SPARK MASTER PORT-7877 
fi 


if [ "SSPARK MASTER IP" - "" ]; then 
SPARK MASTER IP- hostname" 
fi 


if [ "SSPARK MASTER WEBUI PORT" - "" ]; then 
SPARK MASTER WEBUI PORT-8080 
fi 


"Ssbin"/spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip SSPARK MASTER IP 


PORT --webui-port SSPARK MASTER WEBUI PORT 


(3) 打开 start - slaves. sh 脚本 ， 会 看 到 它 会 继续 调用 start - slave. sh 脚本 来 启动 Worker 


结 点 [9] 


打开 Master 类 的 伴生 对 象 ， 在 该 伴生 对 象 的 main () 方法 里 ， 会 先 根据 传 进来 的 参数 初始 化 
MasterArguments 对 象 。 接 下 来 调用 startSystemAndActor( ) 方 法 来 开启 一 个 actor。 


# Launch the slaves 


if [ "SSPARK WORKER INSTANCES" - "" ]; then 
exec "Ssbin/slaves.sh" cd 'SSPARK HOME" V; "Ssbin/start-slave.sh" 1 spark://SSPARK MASTER IP:SSPARK MASTER PORT 
else 
if [ "SSPARK WORKER WEBUI PORT" - "" ]; then 
SPARK WORKER WEBUI PORT-8081 
fi 


for ((i-0; i-SSPARK WORKER INSTANCES; i++)); do 


"Ssbin/slaves.sh" cd "SSPARK HOME" \; "Ssbin/start-slave.sh" S(( Si + 1 )) spark://SSPARK MASTER IP:SSPARK M 


ASTER PORT --webui-port S(( SSPARK WORKER WEBUI PORT + Si )) 
done 
fii 


it Usage: start-slave.sh <worker#> <master-spark-URL> 
# where <master-spark-URL> is like "spark://localhost:7077" 


sbin='dirname "$0"` 
sbin-'cd "Ssbin"; pwd' 


'S$sbin /spark-daemon.sh start org.apache.spark.deploy.worker.Worker "SQ 


(5) 到 这 里 ， 我 们 可 以 进入 Spark 的 源码 来 分 析 Master 结 点 和 Worker 
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行 控制 和 状态 通信 。 下 面 我 们 以 Spark 集群 启动 的 “start - all. sh". 命令 为 例 来 解析 一 下 Ak- 


--port $SPARK_MASTER_ 


(4) 打开 start - slave. sh 文件 ， 我 们 会 看 到 spark - daemon. sh 脚本 会 开启 Worker 进程 。 
这 里 的 Worker XFM AY Ab EE ASSPARK_ HOME/conf/slaves 文件 中 配置 的 Worker 


之 间 的 通信 。 


def main( argStrings: Array[ String] ) | 
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SignalLogger. register( log) 

val conf = newSparkConf 

val args = newMasterArguments ( argStrings , conf) 

val (actorSystem, , ) = startSystemAndActor( args. host, args. port, args. webUiPort , conf) 


actorSystem. awaitTermination( ) 


| 


在 startSystemAndActor( ) 方 法 中 会 调用 AkkaUti 工具 类 创建 一 个 ActorSystem， 通 过 ac- 
torSystem. actorOf( ) 方 法 开启 Master， 并 返回 Master 的 ref (Mater 这 个 actor 的 引用 )。 


defstartSystemAndActor( 

host: String, 
port; Int, 
webUiPort: Int, 
conf; SparkConf) : ( ActorSystem , Int, Int) = | 

valsecurityMgr = new SecurityManager( conf) 

// AkkaUtils 是 Spark 封装 的 一 个 工具 类 , 它 简化 了 我 们 创建 Actor 的 步 又 

val (actorSystem ,boundPort) = AkkaUtils. createActorSystem( systemName , host , port , conf = conf, 
securityManager = securityMgr) 

// 启 动 一 个 Master Actor 

val actor = actorSystem. actorOf( Props( classOf[ Master | , host, boundPort , webUiPort, 
securityMer ) , actorName ) 

val timeout = AkkaUtils. askTimeout( conf) 

valrespFuture = actor. ask( RequestWebUIPort) ( timeout ) 

valresp = Await. result( respFuture , timeout). asInstanceOf[ WebUIPortResponse | 

( actorSystem , boundPort , resp. webUIBoundPort ) 


| 


(6) 当 Master 进程 开启 ， 也 即 Master 对 象 实例 化 后 ， 首 先 要 执行 preStart( ) 这 个 生命 周期 方 
法 进行 一 系列 的 Master 配置 。 在 preStart 方法 中 , 我 们 这 里 重点 关注 context. system. schedu- 
ler. schedule () 这 个 方法 ， 其 中 的 参数 WORK_TIMEOUT 的 默认 值 是 60s，self 指 的 是 Master A 
E, CheckForWorkerTimeOut 是 个 样 例 类 。 


override defpreStart( ) | 


logInfo( " Starting Spark master at " + masterUrl) 

// Listen for remote client disconnection events ,since they don 't go throughAkka 's watch( ) 

context. system. eventStream. subscribe (self, classOf[ RemotingLifecycleEvent | ) 

webUi. bind( ) 

masterW ebUiUrl = " http ://" + masterPublicAddress + " :" + webUi. boundPort 

// f£ schedule( ) 方 法 内 部 会 向 Master 这 个 Actor 对 象 的 邮箱 发 送 消息 

context. system. scheduler. schedule ( Omillis, WORKER _ TIMEOUT millis, self, CheckForWorker- 
TimeOut ) 

masterMetricsSystem. registerSource ( masterSource ) 


masterMetricsSystem. start ( ) 


applicationMetricsSystem. start ( ) 
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| 
我 们 会 看 到 在 Scheduler 特质 的 schedule( ) 方 法 里 ， 有 条 发 送 消息 的 语句 〈 即 代码 中 的 
语句 receiver ! message 中 message 所 指 代 的 CheckForWorkerTimeOut) ， 其 中 schedule ( ) 77 1X 
的 参数 receiver 的 实 参 是 self, ABC message 的 实 参 是 CheckForWorkerTimeOut, TE3X a 
fifi 60s, Master 都 会 重复 向 目 己 的 邮箱 发 送 消息 ， 来 检查 已 经 注册 成 功 的 Worker 结 点 是 
在 规定 时 间 内 Master 发 送 心跳 。 


final def schedule( 


initialDelay: FiniteDuration, 


interval ; FiniteDuration , 
receiver ; ActorRef , 
message: Any) (implicit executor; ExecutionContext , 
sender; ActorRef = Actor. noSender ) : Cancellable = 
schedule ( initialDelay , interval, new Runnable | 
def run = | 
receiver ! message 
if (receiver. isTerminated ) 


throw newSchedulerException ( " timer active for terminated actor" ) 


|) 


(7) 下 面 我 们 打开 Master 负责 接收 并 处理 消息 的 receiverWithLogging( ) 方 法 。 在 它 的 模 
SU UU fü ci A FR FI) CheckForWorkerTimeOut。 接 着 会 调用 timeOutDeadWorkers( ) 方 法 。 


case CheckForWorkerTimeOut => | 
timeOutDeadWorkers( ) 


| 
我 们 继续 跟踪 timeOutDeadWorkers( ) 方 法 ， 在 timeOutDeadWorkers( ) 方 法 中 ， it ye Fat 
心跳 发 送 超时 的 Worker, 


deftimeOutDeadWorkers( ) | 
// Copy the workers into an array so we don 't modify thehashset while iterating through it 
valcurrentTime = System. currentTimeMillis( ) 
/ / XY UE fi AX DEEN HJ. Worker 
valtoRemove = workers. filter( . lastHeartbeat < currentTime - WORKER, TIMEOUT). toArray 
for (worker «- toRemove) | 
if (worker. state ! = WorkerState. DEAD) | 
logWarning( " Removing 96 s because we got no heartbeat in % d seconds". format( 
worker. id, WORKER, TIMEOUT/1000) ) 
remove Worker( worker ) 


| else | 


if ( worker. lastHeartbeat < currentTime - (( REAPER_ITERATIONS +1) x WORKER_ 
TIMEOUT) ) | 


a 
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workers — = worker 


| 


(8) 下 面 我 们 进入 Worker 进程 ，Worker 进程 的 开局 步骤 和 Master 进程 的 步骤 是 一 样 
的 ， 这 里 不 做 详解 ， 我 们 直接 进入 Worker 类 的 preStart( ) 方法。 接着 查看 preStart( ) 方法 里 
面 的 registerWithMaster( ) 方 法 ，preStart( ) 方 法 的 源码 实现 如 下 : 


override defpreStart( ) | 
assert( | registered) 
logInfo( " Starting Spark worker 96s:96 d with 96 d cores,%s RAM". format( 
host, port, cores , Utils. megabytesToString( memory ) ) ) 


logInfo( " Spark home: 
createWorkDir( ) 


+ sparkHome ) 


context. system. eventStream. subscribe (self, classOf[ RemotingLifecycleEvent | ) 
shuffleService. startIfEnabled ( ) 

webUi = new WorkerWebUI( this , work Dir , webUiPort ) 

webUi. bind( ) 

register WithMaster( ) // |n] Master 结 点 注册 Worker 结 点 


metricsSystem. registerSource ( workerSource ) 


metricsSystem. start( ) 


| 
在 registerWithMaster( ) 方 法 里 会 继续 调用 tryRegisterAllMaster( ) Fy% [n] Master 注册 Worker。 


defregisterWithMaster( ) | 

//DisassociatedEvent may be triggered multiple times ,so don 't attempt registration 

// if there are outstanding registration attempts scheduled. 

registrationRetryTimer match | 

case None => 

registered = false 
tryRegisterAllMasters (_) // 继 续 调 用 tryRegisterAllMasters( ) [s] Master 注册 Worker 
connectionAttemptCount = 0 


registrationRetryTimer = Some | 


context. system. scheduler. schedule( INITIAL. REGISTRATION RETRY INTERVAL, 
INITIAL. REGISTRATION. RETRY, INTERVAL, self, ReregisterWithMaster ) 
| 
case Some(_) => 
logInfo( " Not spawning another attempt to register with the master, since there is an" + 


attempt scheduled already. " ) 
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在 tryRegisterAllMaster( ) 77 12; Hi [n] Master 的 引用 actor Aix RegisterWorker 的 消息 来 申 
请 Worker 的 注册 。 > 


private def tryRegisterAllMasters( ) | 
for (masterUrl <- masterUrls) | 
logInfo( " Connecting to master " + masterUrl +"... ") 
val actor = context. actorSelection ( Master. toAkkaUrl ( masterUrl ) ) 


actor | RegisterWorker( workerld , host, port , cores , memory , webUi. boundPort , public Address ) 


| 


(9) 在 Master 的 邮箱 里 (BH receiveWithLogging( ) 方 法 ) 收 到 此 消息 〈 即 一 个 样 例 类 
RegisterWorker 消息 ) 会 进行 处 理 ， 如 果 注 册 成 功 ，Master 结 点 会 问 Worker 结 点 发 送 Regis- 
teredWorker 消息 。 


caseRegisterWorker( id , workerHost, workerPort , cores, memory , workerUiPort , publicAddress) => 
| 

logInfo( " Registering worker 96 s:96d with 96d cores, 96 s RAM". format( 

workerHost , workerPort , cores , Utils. megabytesToString( memory ) ) ) 

if (state == RecoveryState. STANDBY) | 
// ignore, don 't send response 
else if ( idToWorker. contains(id) ) | 
sender ! RegisterWorkerFailed( " Duplicate worker ID" ) 


| else | 

val worker = newWorkerlnfo( id , workerHost , workerPort , cores , memory , 
sender , workerUiPort , publicAddress ) 

if ( registerWorker( worker) ) | 
persistenceEngine. addWorker( worker) 
// 如 果 注 册 成 功 会 向 Worker 发 送 Registered Worker 消息 
sender ! RegisteredWorker( masterUrl , masterWebUiUrl ) 
schedule( ) 

| else | 
valworkerAddress = worker. actor. path. address 
logWarning( " Worker registration failed. Attempted to re — register worker at same " + 

"address: " + workerAddress ) 

sender ! RegisterWorkerFailed( " Attempted to re — register worker at same address; " 


* workerAddress ) 


| 
(10) 当 Worker 25 i IC] RegisteredWorker 消息 后 ， 会 癌 自 己 的 邮箱 〈 也 就 是 Worker 类 


f Spark 核心 源码 分 析 与 开发 实战 


的 receiveWithLogging 方法 ) 周期 性 地 发 送 WorkDirCleanup 消息 来 清理 Worker 结 点 上 的 
Spark 应 用 目录 下 的 内 容 。 


override defreceiveWithLogging = | 
caseRegisteredWorker( masterUrl ,masterWebUiUrl ) => 


logInfo( " Successfully registered with master " 


+ masterUrl ) 
registered = true 
changeMaster( masterUrl ,masterWebUiUrl ) 
context. system. scheduler. schedule (Omillis, HEARTBEAT_MILLIS millis , self , SendHeartbeat ) 
if (CLEANUP_ENABLED) | 
logInfo( s" Worker cleanup enabled; old application directories will be deleted in: $workDir" ) 
// Worker 收 到 Master 发 送 过 来 的 Registered Worker 消息 后 会 周期 性 地 向 自己 的 邮箱 
发 送 WorkDirCleanup 消息 
context. system. scheduler. schedule( CLEANUP_INTERVAL_MILLISmillis , 
CLEANUP. INTERVAL MILLISmillis , self, WorkDirCleanup) 


| 


在 Worker 类 的 receiveWithLogging 中 ， 找 到 case WorkDirCleanup 选项 的 匹配 后 ， 接 下 来 
会 启动 一 个 独立 的 线程 去 清理 旧 应 用 的 目录 和 文件 ， 具 体 的 操作 源码 如 下 : 
caseWorkDirCleanup => 
// Spin up a separate thread (in a future) to do the dir cleanup; don 't tie up worker actor 
valcleanupFuture = concurrent. future | 
valappDirs = workDir. listFiles( ) 
if (appDirs == null) | 
throw newlOException('" ERROR: Failed to list files in " + appDirs) 
| 
appDirs. filter {dir => 
// the directory is used by an application - check that the application is not running 
// when cleaning up 
valappldFromDir = dir. getName 
valisAppStillRunning = executors. values. map( _. appld). contains( appldFromDir) 
dir. isDirectory && | isAppStillRunning && 
! Utils. doesDirectory ContainAnyNewFiles ( dir, APP DATA, RETENTION. SECS) 
. foreach | dir => 


logInfo( s" Removing directory ; $ | dir. getPath | " ) 
Utils. deleteRecursively ( dir) 


cleanupFuture onFailure | 


case e: Throwable 2» 


logError( " App dir cleanup failed; " + e. getMessage, e) 
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到 这 里 ， 我 们 通过 Master 结 点 和 Worker 结 点 之 间 发 送 的 一 些 消息 的 流程 讲解 了 Akka 在 
Spark 中 的 应 用 ， 对 于 receiveWithLogging( ) 方 法 中 的 模式 匹配 选项 ， 还 有 很 多 没 提 及 ， 读 者 
可 通过 源码 进行 了 解 。 对 于 Akka, Spark 并 没有 充分 挖掘 它 强大 的 并 行 处 理 能 力 ， 只 是 将 其 
作为 分 布 式 系统 中 的 RPC 框架 。 Ss 


WA Shuffle 机 制 


5. 6. 1 Shuffle 的 原理 


在 MapReduce 框架 中 ，Shuffle 是 连接 Map 和 Reduce 之 间 的 桥梁 ，Map 的 输出 要 用 到 
Reduce 中 必须 经 过 Shuffle 这 个 环节 ，Shuffle 的 性 能 高 低 直接 影响 了 整个 程序 的 性 能 和 吞 叶 
ht. Spark 作为 MapReduce 框架 的 一 种 实现 ， 自 然 也 实现 了 shuffle 的 逻辑 。 

Shuffle 描述 的 是 一 个 过 程 ， 表 现 出 来 的 是 多 对 多 的 依赖 关系 。 在 类 似 于 MapReduce 的 
计算 框架 中 ，Shuffle 是 连接 Map 阶段 和 Reduce 阶段 的 纽带 ， 每 个 Reduce Task 都 会 从 Map 
Task 产生 的 数据 里 读 取 其 中 的 一 片 数 据 ， 如 果 Map Task 数目 为 m，Reduce Task 的 数目 为 n， 
极端 情况 下 可 能 会 触发 m xn 个 数据 复制 通道 。 这 是 因为 Shuffle 通常 分 为 两 部 分 ，Map 阶段 
的 数据 准备 和 Reduce 阶段 的 数据 复制 。Map 阶段 需 根 据 Reduce 阶段 的 Task 数量 来 决定 每 
个 Map Task 输出 的 数据 分 片 数目 ， 这 些 数据 分 片 可 能 保存 在 内 存 中 或 磁盘 上 ， 这 些 分 片 的 
存在 形式 可 能 是 每 个 分 片 一 个 文件 ， 也 可 能 是 多 个 分 片 放 到 一 个 数据 文件 中 外 加 一 个 索引 来 
记录 每 个 分 片 在 数据 文件 中 的 偏 移 量 。 


5.6.2 Shuffle 的 写 操作 


Shuffle 的 写 操作 (Shuffle writer) 是 将 MaPTask 操作 后 的 数据 写 入 到 磁盘 中 ，Spark 中 
shuffle 输出 的 ShuffleMapTask 会 为 每 个 ReduceT ask 创建 对 应 的 Bucket ( 桶 )，ShuffleMapTask 
产生 的 结果 会 根据 设置 的 partitioner (分 区 ) 得 到 对 应 的 Bucketld ( 桶 编号 )， 然 后 填充 到 相应 
的 Bucket 中 去 。 每 个 ShuffleMapTask 的 输出 结果 可 能 包含 所 有 的 ReduceTask 需要 的 数据 ， 所 
以 每 个 ShuffleMapTask 创建 Bucket 的 数目 是 和 ReduceTask 的 数目 相等 的 (如 图 5-7 所 示 )。 


(shuffle EERIE) 


Shuffle fetch 


(shuffle 取 操作 ) 


图 5-7 Spark Shuffle 流程 
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ShuffleMapTask 创建 的 Bucket 对 应 于 磁盘 上 的 一 个 文件 ， 用 于 存储 结果 ， 此 文件 也 被 称 
为 BlockFile。 通 过 spark. shuffle. file. buffer. kb 属性 配置 的 缓冲 区 就 是 用 来 创建 FastBuffered- 
OutputStream 输出 流 的 。 如 果 在 配置 文件 中 设置 了 spark. shuffle. consolidateFiles 属性 为 true, 
则 ShuffleMapTask 所 产生 的 Bucket 就 不 一 定单 独 对 应 一 个 文件 了 ， 而 是 对 应 文件 的 一 部 分 ， 
这 样 做 会 大 量 减少 产生 的 BlockFile 文件 数量 (如 图 5-8 所 示 )。 


Map Task 


Map Task CN 
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bucket Ws bucket 
a 
up 


K 5-8 shuffle 文件 聚合 示意 图 


(shuffle #2/£) 


Shuffle fetch 
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ShuffleMapTask 在 某 个 结 点 上 第 一 次 执行 时 ， 会 为 每 个 ReduceTask 创建 一 个 输出 文件 ， 
并 把 这 些 文件 组 织 成 ShuffleFileGroup， 当 这 个 ShuffleMapTask 执行 完 后 ， 当 前 创建 的 Shuffle- 
FileGroup 可 以 释放 挥 ， 进 行 循环 利用 。 当 又 有 ShuffleMapTask 在 这 个 结 点 上 执行 时 ， 不 需要 
创建 新 的 输出 文件 ， 而 是 在 上 次 的 ShuffleFileGroup 中 已 经 创建 的 文件 里 追加 写 一 个 Segment 
(HEt), WMR HATAY ShuffleMapTask 还 没 执行 完 ， 此 时 又 在 此 结 点 上 启动 了 新 的 Shuf- 
fleMapTask ， 那 么 新 的 ShuffleMapTask 只 能 又 创建 新 的 输出 文件 再 组 成 一 个 ShuffleFileGroup 
来 进行 结果 输出 的 。 

下 面 我 们 结合 Spark 中 ShuffleMapTask 的 源 代码 来 分 析 一 下 Shuffle 的 写 操作 。 

(1) 首先 在 ShuffleMapTask 的 runTask( ) 方 法 中 ， 通 过 SparkEnv. get. shuffleManager 这 行 
代码 生成 一 个 ShuffleManager 实例 对 象 ，ShuffleManager 对 象 调用 getWriter 方法 得 到 Shuffle- 
Writer 对 象 ， 由 于 ShuffleWriter 本 号 是 个 Trait (特质 )， 具体 执行 的 时 候 使 用 的 是 它 实现 的 
子 类 ， 这 里 采用 的 是 ShuffleWriter 的 默认 值 HashShuffleWriter。 通 过 HashShuffleWriter 的 writ- 
er 方法 把 RDD 的 计算 结果 写 人 磁盘 。 


override defrunTask( context; TaskContext) : MapStatus = | 
// 反 序列 化 RDD 
val ser = SparkEnv. get. closureSerializer. newInstance( ) 
val ( rdd, dep) = ser. deserialize| ( RDD| |. ] ,ShuffleDependency[ _,_,_] ) ]( 
ByteBuffer. wrap( taskBinary. value) , Thread. currentThread. getContextClassLoader ) 
metrics = Some( context. task Metrics ) 
var writer; ShuffleWriter| Any, Any | = null 
try | 
val manager = SparkEnv. get. shuffleManager 
//ShulfleManager 对 象 调用 getWriter( ) 方 法 得 到 Shulfle Writer 对 象 , 这 里 根据 默认 的 设置 得 到 
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的 是 HashShuffleManager 对 象 

writer = manager. getWriter[ Any, Any | (dep. shuffleHandle , partitionId , context ) 
// 调 用 HashShuffleWriter 对 象 的 writer( ) 方 法 把 RDD 的 计算 结果 写 人 磁盘 

writer. write( rdd. iterator( partition ,context ). asInstanceOf[ Iterator[_ < : Product2| Any, Any | | ]) 

return writer. stop( success = true). get e) 
| catch | 

case e; Exception => 

try | 
if (writer! = null) | 


writer. stop( success = false) 


| 
| catch | 
case e: Exception => 


log. debug( " Could not stop writer" ,e) 


| 


throw e 


| 


(2) 继续 跟踪 HashShuffleWriter 类 的 writer( ) 方 法 ， 些 方法 会 判断 要 不 要 在 Map 端 对 数 
据 进 行 聚合 操作 。 最 后 会 继续 调用 ShuffleWriterGroup 的 writers (bucketld) 得 到 一 个 Disk- 
BlockObjectWriter 对 象 。 然 后 继续 调用 DiskBlockObjectWriter 的 writer( ) 方法 来 完成 RDD 数 
Ta WEES A o 


override def write( records; Iterator _ < : Product2[ K, V ] ]) ; Unit = | 
// 判 断 是 否 需 要 在 Map 端 做 聚合 操作 
val iter = if (dep. aggregator. isDefined) | 
if ( dep. mapSideCombine) | 


dep. aggregator. get. combineValuesByKey ( records , context ) 


| else | 
records 
| 
else if ( dep. aggregator. isEmpty && dep. mapSideCombine) | 
throw new IllegalStateException( " Aggregator is empty for map - side combine" ) 
else | 


records 


for (elem «- iter) | 
valbucketld = dep. partitioner. getPartition( elem. _1 ) 
// 这 里 的 shuffle 指 的 是 ShuffleWriterGroup 对 象 。 
shuffle. writers ( bucketld ). write( elem) 
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(3) 在 DiskBlockObjectWriter 的 writer( ) 方 法 中 ， 会 调用 系统 配置 的 序列 化 器 把 数据 写 
R. AARAA rE JavaSerializationStream 。 


override def write( value; Any) | 

if (! initialized) | 

open( ) 

| 

// 这 里 的 objOut 是 一 个 序列 化 絮 , 可 以 使 用 默认 的 Java 序列 化 器 , 也 可 以 在 Spark 的 配置 文 
件 里 重新 配置 Kryo 序列 化 咒 (Kryo 是 一 个 快速 高 效 的 Java 对 象 图 形 序列 化 框架 ,主要 特点 是 高 效 
TU Hl. Kryo 用 来 序列 化 对 象 到 文件 ,数据库 或 者 网 络 ) 

objOut. writeObject( value ) 


if (writesSinceMetricsUpdate ==32) | 
writesSinceMetricsUpdate =0 
updateBytes Written ( ) 

| else | 


writesSinceMetricsUpdate += 1 
| 
| 


以 上 内 容 即 是 结合 源 代码 对 Spark 中 Shuffle 的 写 操作 过 程 进行 的 一 些 分 析 。 下 面 我 们 继 
续 探讨 Shuffle 的 读 操 作 。 


3 7-1. Shuffle 的 读 操作 


Spark 可 以 使 用 两 种 方式 来 读 取 数 据 ， 一 种 是 Socket (BRF) 方式 ， 另 一 种 是 使 用 
Netty 框架 ，Netty 是 由 JBOSS 提供 的 一 个 Java 开源 框架 。Netty 提供 异步 的 、 事 件 驱 动 的 网 
络 应 用 程序 框架 和 工具 ， 用 以 快速 开发 高 性 能 、 高 可 徘 性 的 网 络 服务 右 和 客户 端 程序 。 在 
Spark 中 使 用 Netty 方式 可 以 通过 配置 spark. shuffle. use. netty 属性 为 true 来 启动 。 

ReduceTask 读 取 数据 时 ， 会 通过 BlockManager 根据 BlockId 把 相关 的 数据 返回 给 Reduc- 
eTask。 如 果 使 用 的 是 Netty 框架 ，BlockManager 会 创建 ShuffleSender 专门 用 于 发 送 数 据 。 如 果 
ReduceTask 所 需要 的 数据 恰好 在 本 结 点 ， 那 就 直接 去 磁盘 上 读 即 可 ， 不 再 通过 网 络 获取 ， 这 一 
点 比 MapReduce 做 的 要 好 ，MapReduce 取 数 据 时 ， 即 使 数据 在 本 地 还 是 要 走 一 壳 网 络 传输 。 

Spark 的 Shuffle 过 程 中 的 数据 都 没有 经 过 排序 ， 这 一 点 也 要 比 MapReduce 框架 节省 很 多 
时 间 。ReduceTask 读 取 过 来 的 数据 首先 存放 到 HaskMap 中 ， 如 果 数 据 量 比较 小 ， 占 用 内 存 
空间 不 会 太 大 ， 如 有 果 数 据 量 较 大 ， 那 就 需要 较 多 内 存 ， 当 内 存 不 够 时 ， 该 怎么 办 ? 

Spark 提供 了 两 种 方式 ， 根 据 spark. shuffle. spill 的 设置 ， 当 内 存 不 够 时 ， 直 接 就 失败 ; 
dmn spill (输出 ) 到 磁盘 ， 那 就 把 内 存 中 的 数据 移 到 磁盘 中 。 在 写 磁盘 前 ， 先 
把 内 存 中 的 HashMap 排序 ， 并 且 把 内 存 中 绥 冲 区 的 数据 排序 之 后 和 写 到 磁盘 上 的 文件 数据 
组 成 一 个 最 小 堆 ， 每 次 从 最 小 堆 中 读 取 最 小 的 数据 。 

Spark 对 Shuffle 操作 提供 了 多 个 属性 ， 用 于 控制 其 中 的 细节 。 属 性 列表 如 表 5-2 所 示 。 
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表 5-2 Shuffle 属性 列表 
属性 名 称 默 认 值 含 X 


对 数据 进行 shuffle 时 执行 的 shuffle 管理 器 。 基 于 Hash 的 shuffle 管理 器 
是 默认 的 ， 但 是 从 sparkl. 1 开始 ， 出 现 了 基于 排序 的 shuffle 管理 器 ， 后 者 > 
在 小 的 executor 环境 下 ， 如 YARN 中 会 有 更 好 的 内 存 效率 。 要 使 用 后 者 ， 
将 值 设 定 为 SORT 


如 果 设 置 为 true， 在 shuffle 时 就 合并 中 间 文 件 ， 对 于 有 大 量 Reduce 任务 
的 shuffle 来 说 ， 合 并 文件 可 以 提高 文件 系统 性 能 。 如 果 使 用 的 是 ext4 或 
xfs 文件 系统 ， 建 议 设 置 为 tue; 对 于 ex3, ， 由 于 文件 系统 的 限制 ， 设 置 为 
true 反而 会 使 内 核 >8 的 机 器 降低 性 能 

如 果 设 置 为 tue， 在 shuffle 期 间 通过 溢出 数据 到 磁盘 来 降低 了 内 存 使 用 
Boat, ant} (ES: spark. shuffle. memoryFraction 指定 的 。 

fe T Hk AR Æ shuffle 期 间 游 出 的 数据 如果 压缩 将 使 用 


spark. io. compression. codec 


只 有 spark. shuffle. spill 设 为 ttue， 此 选项 才 有 意义 ， 决 定 了 当 shuffle 过 
spark. shuffle. memoryFraction 0.2 E PERDAR A NFED EE ES EN RE Spill, BRU 2096, uni 
Spill 的 太 频 繁 ， 可 以 适当 增加 该 数值 ， 减 少 Spill 次 数 


spark. shuffle. compress true 是 否 压 缩 map 输出 文件 ， 压 缩 将 使 用 spark. io. compression. codec 
每 个 shuffle 的 文件 输出 流 内 存 缓冲 区 的 大 小 ， 以 KB 为 单位 。 这 些 缓冲 
区 可 以 减少 磁盘 寻 道 的 次 数 ， 也 减少 创建 shuffle 中 间 文 件 时 的 系统 调用 


每 个 reduce 任务 同时 获取 map 输出 的 最 大 大 小 〔 以 兆 字 节 为 单位 ) 。 由 
spark. reducer. maxMbInFlight 48 于 每 个 map 输出 都 需要 一 个 缓冲 区 来 接收 它 ， 这 代表 着 每 个 reduce 任务 有 
国定 的 内 存 开 销 ， 所 以 要 设置 小 点 ， 除 非 有 很 大 内 存 


spark. shuffle. manager HASH 


spark. shuffle. consolidateFiles false 


spark. shuffle. spill true 


spark. shuffle. spill. compress true 


spark. shuffle. file. buffer. kb 100 


该 参数 只 适用 于 spark. shuffle. manager 设置 为 SORT 时 ， 因 为 SortShuffle- 
Manager 在 处 理 不 需要 排序 的 shuffle 操作 时 ， 会 由 于 排序 引起 性 能 下 降 ， 
该 参数 决定 了 在 Reduce 分 区 少 于 200 时 ， 不 使 用 Merge Sort 的 方式 处 理 数 
据 ， 而 是 与 Hash Shuffle 类 似 ， 直 接 将 分 区 文件 写 入 调度 的 文件 ， 不同 的 
是 在 最 后 还 是 会 将 这 些 文件 合并 成 一 个 独立 的 文件 。 通 过 取出 Sort 步骤 来 
加 快 处 理 速度 ， 代 价 是 需要 并 发 打开 多 个 文件 ， 导 致 内 存 消耗 增加 ， 本 质 
是 相对 HashShuffleManager 的 一 个 折 囊 方案， 如果 GC (Garbage Collection ) 
问题 严重 ， 可 以 降低 该 值 


spark. shuffle. sort 200 
. bypassMergeThreshold 


EJE, Spark 中 Shuffle 的 工作 机 制 我 们 就 分 析 完 了 ，Shuffle 作为 Spark 集群 中 很 重要 的 
一 个 环节 ， 它 的 运行 状况 直接 决定 了 Spark 集群 运行 Spark 程序 时 的 性 能 状况 。 精 通 Shuffle 
的 工作 机 制 对 于 我 们 在 生产 环境 下 解决 由 于 Shuffle 状况 而 导致 的 问题 有 很 大 的 帮助 。 


T 


Tu 
Ka 
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广播 变量 允许 用 户 保留 一 个 只 读 的 变量 ， 绥 存在 每 一 台 机 侣 上 ， 而 不 用 在 任务 (Task) 
之 间 传 递 变 量 。 广 播 变 量 可 被 用 于 有 效 地 给 每 个 结 点 一 个 大 输入 数据 集 的 副本 而 非 每 个 任务 
保存 一 份 复制 。 同 时 Spark 会 答 试 使 用 一 种 高 效 的 广播 算法 来 传播 广播 变量 ， 从 而 减少 通信 
的 开销 。 
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广播 变量 是 通过 调用 SparkContext. broadcast (value) 方法 创建 的 。 广 播 变 量 是 一 个 val- 
ue 的 封装 带 ， 它 的 值 可 以 通过 调用 Broadcast 实例 对 象 的 value( ) 方 法 获得 。 在 Spark 中 创建 
广播 变量 的 broadcast( ) 方 法 的 具体 实现 内 容 如 下 : 


/ kk 


* Broadcast a read — only variable to the cluster, returning a 
* [| org. apache. spark. broadcast. Broadcast] | object for reading it in distributed functions. 
* The variable will be sent to each cluster only once. 
/ 
def broadcast[ T; ClassTag | (value: T) ; Broadcast| T] = | 
val be = env. broadcastManager. newBroadcast| T | ( value ,isLocal ) 
valcallSite = getCallSite 
logInfo( " Created broadcast " + be. id +" from " + callSite. shortForm ) 


cleaner. foreach( _. registerBroadcastForCleanup( bc) ) 


| 


在 广播 变量 的 实例 对 象 被 创建 后 ， 它 应 该 在 集群 运行 的 任何 函数 中 ,代替 value 值 被 调 
H, AM value 值 不 需要 被 再 次 传递 到 这 结 点 上 。 为 外 ， 广 播 变 量 的 实例 对 象 的 value 值 不 
能 在 广播 后 修改 ， 这 样 可 以 保证 所 有 结 点 收 到 的 都 是 一 模 一 样 的 广播 值 。 

Broadcast (广播 变量 ) 是 相对 较为 第 用 方法 功能 ， 通常 使 用 方式 包括 共享 配置 文件 、 
map 数据 集 、 树 形 数据 结构 等 ， 为 能 够 更 好 更 快速 为 TASK 任务 使 用 相关 变量 。 下 面 我 们 结 
合 Spark 中 广播 变量 的 源 代 码 从 三 个 方面 解析 Broadcast: 初始 化 、 创 建 ( 写 入 )、 使 用 
( 读 取 )。 

l. 广播 变量 初始 化 

(1) SparkContext 在 初始 化 时 会 创建 SparkEnv 对 象 env， 在 创建 env 对 象 的 过 程 中 会 调 
用 BroadcastManager 的 构造 方法 返回 一 个 对 象 作为 env 的 成 员 变 量 存在 : 


valbroadcastManager = new BroadcastManager( isDriver, conf , security Manager) 


(2) 构造 BroadcastManager 对 象 时 会 调用 它 上 自己 的 initialize( ) 方 法 ， 主 要 根据 配置 初始 
化 broadcastFactory 成 员 变量 ， 并 调用 其 initialize 方法 。 在 BroadcastManager 的 initialize( ) 方 
法 里 ， 会 根据 “spark. broadcast. factory” 的 配置 属性 利用 反射 技术 得 到 BroadcastFactory 实 
例 ， 这 里 默认 的 配置 是 org. apache. spark. broadcast. TorrentBroadcastFactory 。 


private def initialize( ) | 
synchronized | 
if ( ! initialized) | 
val broadcastFactoryClass = 


"wo" 


conf. get ( " spark. broadcast. factory" ," org. apache. spark. broadcast. TorrentBroadcastFactory" ) 


broadcastFactory = 


Class. forName( broadcastFactoryClass). newInstance. asInstanceOf| BroadcastFactory | 


// Initialize appropriateBroadcastFactory and BroadcastObject 
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broadcastFactory. initialize( isDriver , conf ,securityManager) 


initialized = true 
| e 
| 
| 


(3) TorrentBroadcastFactory 这 个 工厂 类 在 初始 化 的 过 程 中 也 会 调用 目 己 的 initialize( ) 方 
法 。 当 然 这 个 initalize( ) 方 法 什么 也 没 做 。 这 也 可 以 看 出 和 HttpBroadcastFactory 工厂 类 的 区 
别 ，Torrent 协议 的 传输 的 处 理 方式 就 是 P2P 方式 (Peer to Peer， 对 等 网 络 ) ， 去 中 心 化 地 传 
输 数 据 。 而 Htp 协议 的 传输 是 中 心 化 服务 ,需要 局 动 服务 来 接受 请 求 。 下 面 代码 是 Torrent- 
BroadcastFactory 的 initialize( ) 方 法 的 实现 : 


/ ** 
* A [[org. apache. spark. broadcast. Broadcast | | implementation that uses aBitTorrent - like 
* protocol to do a distributed transfer of the broadcasted data to the executors. Refer to 
* [| org. apache. spark. broadcast. TorrentBroadcast | | for more details. 
*/ 


class TorrentBroadcastFactory extendsBroadcastFactory | 


override def initialize( isDriver; Boolean,conf; SparkConf,securityMgr; SecurityManager) | | 


| 


(4) 接 下 来 我 们 分 析 如 何在 调用 SparkContext 中 的 broadcast( ) 方 法 中 来 初始 化 一 个 广播 
变量 。 先 看 broadcast( ) 方 法 的 源码 实现 : 


def broadcast[ T; ClassTag | (value: T): Broadcast[ T] = | 
val be = env. broadcastManager. newBroadcast| T | ( value ,isLocal ) 
valcallSite = getCallSite 
logInfo( " Created broadcast " + be. id +" from " + callSite. shortForm ) 


cleaner. foreach( _. registerBroadcastForCleanup( bc ) ) 


| 


(5) 在 上 述 源 代码 中 ，env. broadcastManager 这 行 代码 会 得 到 一 个 BroadcastManager 对 
象 ， 在 BroadcastManager 实例 对 象 的 初始 化 过 程 中 生成 一 个 TorrentBroadcastFactory 实例 对 
象 ， 接 下 去 最 终 会 调用 TorrentBroadcastFactory 的 newBroadCast( ) 方法 ， 创 建 TorrentBroad- 


cast, 


override defnewBroadcast[ T; ClassTag | (value_ : T,isLocal; Boolean,id; Long) = | 


newTorrentBroadcast| T | ( value_, id) 


| 


(6) 在 TorrentBroadcast 初始 化 的 过 程 中 ， 会 直接 调用 setConf( ) 方 法 将 SparkConf xf Ze 
注入 TorrentBroadcast 中 ， 同 时 定义 压缩 方式 。 并 调用 writeBlocks( ) 方 法 将 数据 切 分 存储 。 


private defsetConf( conf: SparkConf) | 
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compressionCodec = if (conf. getBoolean( " spark. broadcast. compress" ,true) ) | 
Some ( CompressionCodec. createCodec ( conf) ) 
| else | 


None 


| 

blockSize = conf. getInt( " spark. broadcast. blockSize" ,4096) * 1024 
| 
setConf( SparkEnv. get. conf) 

2. 创建 (SA) 

Broadcast 实例 对 象 创 建 时 ， 使 用 SparkContext HJ broadeast( ) 方法 ， 并 将 值 一 直 传 递 至 
TorrentBroadcast ， 并 构建 TorrentBroadcast 对 象 ， 同 时 完成 将 数据 信息 交 给 BlockManager 进行 
注册 ， 并 序列 化 在 本 地 存储 。 下 面 我 们 结合 Spark 源 代码 深入 分 析 一 下 广播 变量 的 创建 。 

(1) TorrentBroadcast 对 象 的 writeBlocks( ) 方 法 主要 功能 便 是 按照 定义 的 广播 块 大 小 切 分 
数据 (默认 是 4 MB spark. broadcast. blockSize ) ， 将 切 分 后 的 数据 信息 存放 在 Driver 端的 
BlockManager 中 ， 并 通知 BlockManageMaster 完成 注册 ， 最 后 把 数据 写 人 本 地 磁盘 中 。 


private defwriteBlocks( value; T); Int = | 


// Store a copy of the broadcast variable in the driver so that tasks run on the driver 
// do not create a duplicate copy of the broadcast variable 's value. 
SparkEnv. get. blockManager. putSingle( broadcastld , value , StorageLevel. MEMORY, AND. DISK, 
tellMaster = false ) 
val blocks = // 数 据 块 切 分 方法 
TorrentBroadcast. blockifyObject( value , blockSize , SparkEnv. get. serializer,compressionCodec ) 
blocks. zipWithIndex. foreach | case ( block,i) => 
SparkEnv. get. blockManager. putBytes( // 数 据 块 存储 方法 
BroadcastBlocklId ( id," piece" +i), 
block , 
StorageLevel. MEMORY, AND. DISK SER, 
tellMaster = true) 
| 
blocks. length 
| 


(2) 在 调用 BlockManager 对 象 的 putBytes( ) 方 法 时 ,广播 变量 依据 存储 策略 优先 写 人 本 
地 ， 具 体 实现 可 以 在 BlockManager 类 的 putBytes( ) 方 法 体 中 的 doPut 方法 里 查找 。 


private defdoPut( 
blockId: Blockld, 
data : BlockValues, 
level : StorageLevel , 
tellMaster: Boolean = true, 
effectiveStorageLevel; Option| StorageLevel | = None) 
:Seq[ ( BlockId , BlockStatus ) | = | 
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require( blockId ! =null,"BlockId is null" ) 
require(level ! = null && level. isValid," StorageLevel is null or invalid" ) 


effectiveStorageLevel. foreach |level 2» 


require(level | = null && level. isValid," Effective StorageLevel is null or invalid" ) 


| 
| 


3. 使 用 (GZR) 

广播 变量 依据 存储 策略 优先 写 人 本 地 〈BlockManage#putBytes 方法 ) ， 既 然 序 列 化 数据 
是 本 地 存储 ， 由 此 而 来 的 问题 是 读 取 问 题 ，BlockManage 存储 数据 并 不 似 HDFS 会 依据 备份 
策略 存储 多 份 数 据 放 置 不 同 结 点 ， 如 没有 备份 数据 ， 那 么 必然 产生 数 个 问题 : 

1) 结 点 故障 ， 无 法 访问 结 点 数据 。 

2) 数据 热点 ， 所 有 任务 缘 使 用 该 数据 。 

3) 网 络 传输 ， 所 有 结 点 频繁 访问 单 结 点 。 

解决 这 些 问题 ，Spark 并 没有 使 用 HDFS 的 思想 ， 而 选择 是 P2P 点 对 点 方式 (BT 下 载 ) 
解决 问题 ， 只 要 使 用 过 广播 变量 数据 ， 则 在 本 结 点 存储 数据 ， 由 此 变 成 新 的 数据 源 ， 随 着 数 
据 源 不 断 增 加 传输 数据 的 速度 也 会 越 来 越 快 ， 刚 开始 传输 则 相对 会 慢 一 些 。 同 时 ， 不 建议 使 
用 大 文件 进行 广播 变量 ， 当 广播 变量 较 大 或 者 使 用 较 频 繁 时 ， 相 当 于 每 个 结 点 都 要 存储 一 
份 ， 形 成 网 状 传输 方式 交换 数据 ， 因 此 建议 存储 配置 文件 或 茶 种 数据 结构 为 上 佳 选 择 。 

(1) 通过 调用 be. value (be 指 的 是 广播 变量 实例 对 象 ) 来 取得 广播 变量 的 值 ， 其 主要 
实现 在 TorrentBroadcast 类 的 反 序 列 化 方法 readBroadcastBlock( ) 中 。 


private defreadBroadcastBlock( ) : T = Utils. tryOrIOException | 


TorrentBroadcast. synchronized | // 读 取 广 播 变量 
setConf( SparkEnv. get. conf) 
// 读 取 本 地 广播 变量 
SparkEnv. get. blockManager. getLocal( broadcastId ). map(_. data. next( ) ) match | 
case Some( x) => // 获 取 本 地 数据 成 功 


x. asInstanceOf| T | 


case None => /获取 本 地 数据 失败 

logInfo( " Started reading broadcast variable " + id) 

valstartTimeMs = System. currentTimeMillis ( ) 
// 获 取 Block 数据 块 , 并 将 数据 块 存储 到 本 地 

val blocks = readBlocks( ) //P2P 思想 具体 实践 者 

logInfo( " Reading broadcast variable " +id +" took" + Utils. getUsedTimeMs(startTimeMs ) ) 
// 将 数据 块 反 序列 化 ,并 解压 缩 

val obj = TorrentBroadcast. unBlockifyObject| T | ( 

blocks , SparkEnv. get. serializer , compressionCodec ) 

// Store the merged copy inBlockManager so other tasks on this executor don 't 

// need to re - fetch it. 

SparkEnv. get. blockManager. putSingle( 


broadcastld , obj , StorageLevel. MEMORY AND DISK ,tellMaster = false ) 


e 
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obj 


| 


(2) 在 readBlocks( ) 方 法 中 ， 它 会 先 调 用 getLocal( ) 方 法 从 本 地 查找 数据 ， 如 果 本 地 不 
存在 该 数据 ， 继 而 会 从 远程 查找 ， 然 后 把 数据 存储 到 本 地 。ReadBlocks( ) 方 法 的 具体 实现 代 
人 码 如 下 : 


private defreadBlocks( ) : Array[ ByteBuffer | = | 
// Fetch chunks of data. Note that all these chunks are stored in theBlockManager and reported 
/人 /定义 数据 块 集合 
val blocks 2 new Array| ByteBuffer | ( numBlocks ) 


val bm = SparkEnv. get. blockManager 
// NEP D Br ER ai Ae TAS ,随机 顺序 读 取 数 据 
for (pid <- Random. shuffle( Seq. range(0,numBlocks) ) ) | 
valpieceld = BroadcastBlockId( id," piece" + pid) 
logDebug( s" Reading piece $pieceld of $broadcastld" ) 
// First trygetLocalBytes because there is a chance that previous attempts to fetch the 
// broadcast blocks have already fetched some of the blocks. In that case, some blocks 
// would be available locally ( on this executor). 
// 先 查 本 地 ,继而 查询 远程 
defgetLocal: Option| ByteBuffer | = bm. getLocalBytes( pieceld) 
defgetRemote; Option[ ByteBuffer ] = bm. getRemoteBytes( pieceld). map | block => 
// If we found the block from remote executors/ driver ' sBlockManager , put the block 
// in this executor 'sBlockManager. 
SparkEnv. get. blockManager. putBytes ( 
pieceld , 
block, 
StorageLevel. MEMORY AND DISK SER, 
tellMaster = true ) 
block 
| 
val block; ByteBuffer = getLocal. orElse( getRemote ). getOrElse( 
throw newSparkException( s" Failed to get$pieceld of $broadcastld" ) ) 
/赋值 数据 块 集合 
blocks(pid) = block 
| 
blocks 
| 


到 现在 我 们 知道 ，TorrentBroadCast (TorrentBroadCast 是 BroadCast 的 一 个 子 类 ) 首先 将 
广播 变量 数据 分 块 ， 并 存 到 BlockManager H; 每 个 结 点 需要 读 取 广播 变量 时 ， 是 分 块 读 取 ， 
对 每 一 块 都 读 取 其 位 置信 息 ， 然 后 随机 选 一 个 存 有 此 块 数据 的 结 点 进行 读 取 ; 每 个 结 点 读 取 
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后 会 将 包含 的 块 信息 报告 给 BlockManagerMaster， 这 样本 地 结 点 也 成 为 了 这 个 广播 网 络 中 的 
一 个 peer ( 平 级 结 点 ) 。 与 HttpBroadCast 方式 形成 鲜明 对 比 ， 这 是 一 个 去 中 心 化 的 网 络 ， 只 
需要 保持 一 个 tracker (追踪 者 ) 即 可 ， 这 就 是 POP 的 思想 。 至 此 ， 广 播 变量 的 初始 化 、 数 
据 写 信和 数据 读 取 三 个 重要 概念 我 们 已 经 探讨 完毕 。 > 


XE — 


Rr ( Accumulators) 是 一 种 只 能 通过 关联 操作 进行 “加 ”操作 的 变量 ， 因 此 可 以 高 
效 地 被 并 行 计 算 文 持 。 它 们 可 以 用 来 实现 计数 右 〈 如 MapReduce 中 ) AIR. Spark 原生 
WFF Int 和 Double 类 型 的 累加 器 ， 开 发 者 可 以 自己 添加 新 的 文 持 类 型 。 

一 个 累加 器 可 以 通过 调用 SparkContext. accumulator (v) 方法 从 一 个 初始 值 v 中 创建 。 
运行 在 集群 上 的 任务 ， 可 以 通过 使 用 += 来 给 它 加 值 。 然 而 ,他们 不 能 读 取 这 个 值 。 只 有 驱 
动 程序 (Driver 端的 程序 ) 可 以 使 用 Accumulators 对 象 的 value MAREA Aa tt VL o 

AR Alae f TTI F : 


valaccum = sc. accumulator( O ) 


sc. parallelize( Array ( 1,2,3,4) ). foreach( x => accum += x) 


accum. value 

下 面 我 们 简要 解释 一 下 上 述 三 行 代 码 的 含义 : 

(1) sc 是 SparkContext 的 实例 对 象 ， 该 对 象 是 在 驱动 程序 的 一 部 分 ， 通 过 sc. accumulator(0 ) 
这 人 句 代码 生成 一 个 累加 器 对 象 ， 即 accum, 

(2) sc. parallelize( Array(1,2,3 ,4) ). foreach(x => accum +=x) 这 行 代码 是 在 Spark 集群 
的 工作 结 点 执行 的 《Worker 结 点 )， 也 即 进行 任务 的 具体 计算 。 

(3) accum. value 是 获取 累加 舌 的 计算 结果 值 。 

由 于 囚 加 带 不 是 我 们 所 要 讲解 的 重点 内 容 ， 这 里 对 其 初始 化 和 使 用 只 是 做 了 简单 的 


站 绍 。 


E 


Spark 性 能 调 优 


因为 大 部 分 Spark 程序 都 具有 “内 存 计 算 ” 的 天 性 ， 所 以 集群 中 的 所 有 资源 : CPU, W 
络 带 冤 或 者 是 内 存 都 有 可 能 成 为 Spark 程序 的 瓶 氏 。 通 和 情况 下 ， 如 末 数 据 完全 加 载 到 内 
存 ， 那 么 网 络 佛 宽 就 会 成 为 瓶 希 ， 但 是 你 仍然 需要 对 程序 进行 优化 ， 例 如 采用 序列 化 的 方式 
保存 RDD 数据 (Resilient Distributed Datasets ， 弹 性 分 布 式 数据 等 ) ， 以 便 减 少 内 存 使 用 。 这 
里 主要 讲 两 方面 的 Spark 性 能 优化 : 数据 序列 化 和 内 存 优 化 ， 数 据 序列 化 不 但 能 提高 网 络 性 
能 还 能 减少 内 存 使 用 。 与 此 同时 ， 我 们 还 讨论 其 他 的 一 些 性 能 优化 方法 。 


5-81 数据 序列 化 


序列 化 对 于 提高 分 布 式 程序 的 性 能 起 到 非常 重要 的 作用 。 一 个 不 好 的 序列 化 方式 〈 如 
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序列 化 模式 的 速度 非常 慢 或 者 序列 化 结果 非常 大 ) 会 极 大 降低 计算 速度 。 很 多 情况 下 ， 这 
是 我 们 优化 Spark 应 用 的 第 一 选择 。Spark 试图 在 方便 和 性 能 之 间 获 取 一 个 平衡 。Spark 提供 
了 两 个 序列 化 类 库 : 

(1) Java 序列 化 : 在 默认 情况 下 ，Spark 采用 Java 的 ObjectOutputStream 序列 化 一 个 对 
象 。 该 方式 适用 于 所 有 实现 了 java. io. Serializable 的 类 。 通 过 继承 java. io. Externalizable， 你 
能 进一步 控制 序列 化 的 性 能 。Java 序列 化 非常 灵活 ， 但 是 速度 较 慢 ， 在 某 些 情况 下 序列 化 的 
结 采 也 比较 大 。 

(2) Kryo 序列 化 : Spark 也 能 使 用 Kryo 序列 化 对 象 。Kryo 不 但 速度 极 快 ， 而 且 产生 的 
结果 更 为 紧 竣 。Kryo 的 缺点 是 不 文 持 所 有 类 型 ， 为 了 更 好 的 性 能 ， 你 需要 提前 注册 程序 中 
所 使 用 的 类 。 

我 们 可 以 在 创建 SparkContext 之 前 ， 通 过 调用 System. setProperty (" spark. serializer" ," 
spark. KryoSerializer" ) ， 将 序列 化 方式 切换 成 Kryo。Kryo 不 能 成 为 默认 方式 的 唯一 原因 是 需 
要 用 户 进 行 注册 , 但是， 对 于 任何 “网 络 密集 型 ” (network - intensive). 的 应 用 ， 都 建议 采 
用 该 方式 。 

最 后 ,为 了 将 类 注册 到 Kryo, 需要 继承 spark. KryoRegistrator 并 且 设 置 系统 属性 
spark. kryo. registrator 指 癌 该 类 ， 如 下 所 示 。 


import com. esotericsoftware. kryo. Kryo 


classMyRegistrator extends spark. KryoRegistrator | 
override def registerClasses( kryo: Kryo) | 
kryo. register( classOf[ MyClass! ] ) 
kryo. register( classOf[ MyClass2 ] ) 
| 

| 


// Make sure to set these properties * before * creating aSparkContext! 
System. setProperty ( " spark. serializer" ," spark. KryoSerializer" ) 
System. setProperty ( " spark. kryo. registrator" ," mypackage. MyRegistrator" ) 


val sc 2 newSparkContext(. . . ) 


Kryo 71 AG ae) SCRA T RSET EY S PET, PERS TII BE SP A 
代码 。 如 果 对 和 象 非常 大 ， 我 们 还 需要 增加 属性 spark. kryoserializer. buffer. mb 的 值 。 该 属性 的 
默认 值 是 32, 但 是 该 属性 需要 足够 大 以 便 能 够 容纳 需要 序列 化 的 最 大 对 象 。 最 后 ， 如 果 不 
注册 自己 定义 的 类 ，Kryo 仍然 可 以 工作 ， 但 是 需要 为 了 每 一 个 对 象 保存 其 对 应 的 全 类 和 名 


(full class name) ， 这 是 非常 浪费 的 。 


内 存 优 化 
内 存 优化 有 三 个 方面 的 考虑 : 对 象 所 占用 的 内 存 (或 许 大 家 都 希望 将 所 有 的 数据 都 加 
载 到 内 存 ) ， 访 问 对象 的 消耗 以 及 内 存 回 收 ( Carbage Collection, GC) 所 占用 的 开销 。 
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通常 ，Java 对 象 的 访问 速度 更 快 ， 但 其 占用 的 空间 通 种 比 其 内 部 的 属性 数据 大 2 ~5 倍 。 
这 主要 由 以 下 儿 方 面 原因 : 

(1) 每 一 个 Java 对 象 都 包含 一 个 “对 象 头 ” (Object Header), RAKHA 16 FH, 
包含 了 指向 对 象 所 对 应 的 类 (class) 的 指针 等 信息 。 如 有 果 对 象 本 里 包含 的 数据 非常 少 ， 那 > 
么 对 象 涉 有 可 能 会 比 对 象 数 据 还 要 大 。 

(2) Java String 在 实际 的 字符 串 数据 之 外 ， 还 需要 大 约 40 字 市 的 额外 开销 (因为 String 
将 字符 串 保 存在 一 个 Char 数组 ， 需 要 额外 保存 类 似 长 度 等 其 他 的 数据 ); 同时 ， 因 为 是 Uni- 
code 编码 ， -个 字符 需要 占用 两 个 字 市 ， 所 以 ,一 个 长 度 为 10 的 字符 串 需 要 占用 60 个 
is 

(3) 通用 的 集合 类 ， 例 如 HashMap, LinkedList 等 ， 都 采用 了 链表 数据 结构 ， 对 于 每 一 
RA (entry) 都 进行 了 包装 (wrapper) 。 每 一 个 条 目 不 仅 包 含 对 象 头 ， 还 包含 了 一 个 指 回 
下 一 条 目的 指针 GO SY). 

(4) 基本 类 型 (Primitive Type) 的 集合 通常 都 保存 为 对 应 的 类 ， 例 如 java. lang. Integer。 

下 面 我 们 分 析 如 何 估算 对 象 所 占用 的 内 存 以 及 如 何 进行 改进 一 一 通过 改变 数据 结构 或 者 
采用 序列 化 方式 。 然 后 ， 我 们 将 讨论 如 何 优化 Spark 的 缓存 以 及 Java 内存 回收 ( Garbage 
Collection ) 。 

1. 确定 内 存 消 耗 

确定 对 象 所 需要 内 存 大 小 的 最 好 方法 是 创建 一 个 RDD， 然 后 将 其 放 人 缓存 ， 最 后 阅读 
驱动 程序 (Driver Program) 中 SparkContext 的 日 志 。 日 志 会 告诉 我 们 每 一 部 分 占用 的 内 存 大 
小 ， 可 以 收集 该 类 信息 以 确定 RDD 消耗 内 存 的 最 终 大 小 。 日 志 信息 如 下 所 示 。 

INFO BlockManagerMasterActor: Addedrdd_0_1 in memory on mbk. local :50311 (size; 717. 5 KB free: 
332.3 MB) 


该 信息 表明 vdd. 0. 1 这 个 数据 块 消耗 717.5 KB 的 内 存 。 

2. 优化 数据 结构 

减少 内 存 使 用 的 第 一 条 途径 是 避免 使 用 一 些 增 加 额外 开销 的 Java 特性 ， 例 如 基于 指针 

的 数据 结构 以 对 对 象 进 行 再 包装 等 。 有 很 多 方法 : 

e 使 用 对 象 数组 以 及 类 型 (Primitive Type) 数组 以 符 代 Java 或 者 Scala 集合 类 ( Collec- 
tion Class) 。fastutil 库 为 原始 数据 类 型 提供 了 非 党 方便 的 集合 类 ， 且 兼容 Java 标准 
KE, 

e JS nJ iE DRE e HA IR ERER PRR ET R o 

e 考虑 采用 数字 ID 或 者 枚 举 类 型 蔡 代 String 类 型 的 主键 。 

e 如 果 内 存 少 于 32 GB， 设置 JVM 参数 - XX: + UseCompressedOops 以 便 将 8 字 节 指针 
修改 成 4 字 节 。 与 此 同时 ， 在 Java 7 或 者 更 高 版 本 ， 设 置 JVM 参数 -XX: + UseCom- 
pressedStrings 以 便 采 用 8 比特 来 编码 每 一 个 ASCI 字符 。 我 们 可 以 将 这 些 选 项 添加 到 
spark — env. sh, 

3. 序列 化 RDD 存储 

经 过 上 述 优化 ， 如 有 果 对 象 还 是 太 大 以 至 于 不 能 有 效 存放 ， 还 有 一 个 减少 内 存 使 用 的 人 简单 

方法 一 一 序列 化 ， 采 用 RDD 持久 化 API 的 序列 化 存储 级 别 ( StorageLevel) ， 例 如 MEMORY_ 
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ONLY SER, Spark 将 RDD 每 一 部 分 部 保存 为 byte 数组 。 序 列 化 之 来 的 唯一 缺点 是 会 降低 访 
问 速度 ， 因 为 需要 将 对 象 反 序列 化 。 如 末 需 要 采用 序列 化 的 方式 缓存 数据 ， 我 们 强烈 建议 采 
用 Kryo, Kryo 序列 化 结果 比 Java 标准 序列 化 更 小 〈 其 实 比 对 象 内 部 的 原始 数据 都 要 小 ) 。 

4. 优化 内 存 回收 

如 采 Spark 程序 产生 大 量 的 RDD 数据 ，JVM 内 存 回 收 就 可 能 成 为 问题 (通常 ， 如 果 只 需 
进行 一 次 RDD 读 取 然后 进行 操作 是 不 会 市 来 问题 的 ) 。 当 需要 回收 旧 对 象 以 便 为 新 对 象 腾 内 存 
空间 时 ，JVM 需要 跟踪 所 有 的 Java 对 象 以 确定 哪些 对 象 是 不 再 需要 的 。 需 要 记 住 的 一 点 是 ， 
内 存 回收 的 代价 与 对 象 的 数量 正 相 关 ; 因此 ， 使 用 对 和 象 数 量 更 少 的 数据 结构 (例如 使 用 int 数 
组 而 不 是 LinkedList) 能 显著 降低 这 种 消耗 。 

每 项 任务 (Task) 的 工作 内 存 与 缓存 在 结 点 的 RDD 之 间 会 相互 影响 ， 这 种 影响 也 会 市 
来 内 存 回 收 问 题 。 下 面 我 们 讨论 如 何 为 RDD 分 配 空间 以 便 减轻 这 种 影响 。 

(1) 佑 算 内 存 回收 的 影响 。 优 化 内 存 回 收 的 第 一 步 是 获取 一 些 统计 信息 ， 包 括 内 存 回 
收 的 频率 、 内 存 回 收 耗费 的 时 间 等 。 为 了 获取 这 些 统计 信息 ， 我 们 可 以 把 参数 - verbose; gc 
—- XX; +PrintGCDetails - XX; + PrintGCTimeStamps 添加 到 spark — env. sh 文件 的 环境 变量 
SPARK_JAVA_OPTS。 设 置 完成 后 ，Spark 作业 运行 时 ， 我 们 可 以 在 日 志 中 看 到 每 一 次 内 存 
回收 的 信息 。 注 意 ， 这 些 日 志保 存在 集群 的 工作 结 点 (Work Nodes) 而 不 是 你 的 驱动 程序 
(Driver Program) . 

(2) 优化 缓存 大 小 。 用 多 大 的 内 存 来 缓存 RDD 是 内 存 回收 一 个 非常 重要 的 配置 参数 。 
默认 情况 下 ，Spark 采用 运行 内 存 (executor memory, spark. executor. memory 或 者 SPARK _ 
MEM) 的 60% 空 间 来 进行 RDD 缓存 。 这 表明 在 任务 执行 期 间 ， 有 40% 的 内 存 可 以 用 来 进 
行 对 象 创建 。 

如 果 任 务 运行 速度 变 慢 上 且 JVM 频繁 进行 内 存 回 收 ， 或 者 内 存 空间 不 足 ， 那 么 降低 缓存 
大 小 设置 可 以 减少 内 存 消 耗 。 为 了 将 缓存 大 小 修改 为 50% ,我 们 可 以 调用 方法 Sys- 
tem. setProperty (" spark. storage. memoryFraction" ," 0.5" ) 。 结 合 序列 化 缓存 ， 使 用 较 小 缓存 
足够 解决 内 存 回 收 的 大 部 分 问题 。 

(3) 内 存 回收 高 级 优化 。 为 了 进一步 优化 内 存 回 收 ， 我 们 需要 了 解 JVM 内 存 管理 的 一 
些 基 本 知识 。 

1) Java HE (heap) 空间 分 为 两 部 分 : 新 生 代 和 老生 代 。 新 生 代 用 于 保存 生命 周期 较 短 
的 对 象 ; 老生 代用 于 保存 生命 周期 较 长 的 对 象 。 

2) 新 生 代 进一步 划分 为 三 部 分 : Eden, Survivorl 、Survivor2 。 

3) 内 存 回 收 过 程 的 简要 描述 : 如 果 Eden 区 域 已 满 则 在 Eden 执行 minor GC (IÆ G - C) 
并 将 Eden 和 Survivorl 中 仍然 活跃 的 对 象 复制 到 Survivor2 。 然 后 将 Survivorl 和 Survivor2 对 
换 。 如 有 果 对 象 活跃 的 时 间 已 经 足够 长 或 者 Survivor2 区 域 已 满 ， 那 么 会 将 对 和 象 复 制 到 Old 区 
域 (老化 区 域 )。 最 终 ， 如 采 Old K BUA EIS, WAT full GC (全 面 GC)。 

Spark 内 存 回收 优化 的 目标 是 确保 只 有 长 时 间 存 活 的 RDD 才 保 存 到 老生 代 区 域 ， 同时， 
新 生 代 区 域 足 够 大 以 保存 生命 周期 比较 短 的 对 象 。 这 样 ， 在 任务 执行 期 间 可 以 避免 执行 full 
GC。 下 面 是 一 些 可 能 有 用 的 执行 步 又 : 

1) 通过 收集 GC 信息 检查 内 存 回 收 是 不 是 过 于 频繁 。 如 果 在 任务 结束 之 前 执行 了 很 多 
次 full CC， 则 表明 任务 执行 的 内 存 空间 不 足 。 
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2) 在 打印 的 内 存 回 收 信息 中 ， 如 果 老 生 代 接近 消耗 殖 尽 ， 那 么 减少 用 于 缓存 的 内 存 空 
间 。 这 可 以 通过 属性 spark. storage. memoryFraction 来 完成 。 减 少 缓存 对 象 以 提高 执行 速度 是 
非常 值得 的 。 

3) 如 果 有 过 多 的 minor GC 而 不 是 full GC， 那么 为 Eden 分 配 更 大 的 内 存 是 有 益 的 。 (S) 
你 可 以 为 Eden 分 配 大 于 任务 执行 所 需要 的 内 存 空间 。 如 果 Eden 的 大 小 确定 为 下 ， 那 么 可 
以 通过 -Xmn 24/3 x 来 设置 新 生 代 的 大 小 (将 内 存 扩 大 到 4/3 是 考虑 到 survivor 所 需要 
的 空间 ) 。 

4) 举 一 个 例子 ， 如 果 任 务 从 HDFS 读 取 数据 ， 那 么 任务 需要 的 内 存 空间 可 以 从 读 取 
的 block 数量 估算 出 来 。 注 意 ， 解 压 后 的 bleok 通常 为 解压 前 的 2 ~3 倍 。 所 以 ， 如 果 我 们 
需要 同时 执行 3 个 或 4 个 任务 ，block 的 大 小 为 64 M， 我 们 可 以 估算 出 Eden 的 大 小 为 4 x 
3 x64 MB, 

5) 监控 内 存 回收 的 频率 以 及 消耗 的 时 间 并 修改 相应 的 参数 设置 。 
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1. 并 行 度 

除非 为 每 一 个 操作 都 设置 足够 高 的 并 行 度 ， 否 则 集群 不 能 有 效 的 被 利用 。Spark 会 根据 
每 一 个 文件 的 大 小 自动 设置 运行 在 该 文件 Map 任务 的 个 数 我们 也 可 以 通过 SparkContext 的 
配置 参数 来 控制 ) ; 对 于 分 布 式 Reduce 任务 (例如 groupByKey 或 者 reduceByKey) ， 则 利用 
最 大 RDD 的 分 区 数 ， 我们 可 以 通过 配置 reduceByKey 这 些 方法 的 第 二 个 参数 来 传人 并 行 度 
或 者 通过 设置 系统 参数 spark. default. parallelism 来 改变 默认 值 。 通 党 来 讲 ， 在 集群 中 ， 我 们 
建议 为 每 一 个 CPU 核 (core) 分 配 2 ~3 个 任务 。 

2. Reduce Task 的 内 存 使 用 

有 时 ， 我 们 会 碰 到 OutOfMemory 错误 ， 这 不 是 因为 我 们 的 RDD 不 能 加 载 到 内 存 ， 而 是 
因为 任务 执行 的 数据 集 过 大 ， 例 如 正在 执行 groupByKey 操作 的 Reduce 任务 。Spark 的 Shuf- 
fle 操作 (比如 sortByKey, groupByKey, reduceByKey, join 等 ) 为 了 完成 分 组 会 为 每 一 个 任 
务 创建 哈 希 表 ， 哈 希 表 有 可 能 非常 大 。 最 简单 的 修复 方法 是 增加 并 行 度 ， 这 样 ， 每 一 个 任务 
的 输入 会 变 的 更 小 。Spark 能 够 非常 有 效 的 文 持 段 时 间 任 务 〈 例 如 200ms) ， 因 为 它 会 对 所 有 
的 任务 复 用 JVM， 这 样 能 减 小 任务 启动 的 消耗 。 所 以 ， 我 们 可 以 放心 的 使 任务 的 并 行 度 远大 
于 集群 的 CPU 核 数 。 

3. 广播 “大 变量 ” 

使 用 SparkContext 的 广播 变量 可 以 有 效 减 小 每 一 个 任务 的 大 小 以 及 在 集群 中 局 动作 业 的 
消耗 。 如 果 任 务 会 使 用 驱动 程序 (Driver Program) 中 比较 大 的 对 象 〈 例 如 静态 查找 表 ) ， 可 
以 考虑 将 其 变 成 可 广播 变量 。Spark 会 在 主 结 点 (master) 打印 每 一 个 任务 序列 化 后 的 大 小 ， 
所 以 我 们 可 以 通过 它 来 检查 任务 是 不 是 过 于 庞大 。 通 常 来 计 ， 大 于 20 KB 的 任务 可 能 都 是 值 
得 优化 的 。 

4. 数据 本 地 性 

数据 本 地 性 对 Spark 任务 执行 的 性 能 有 显著 影响 。 如 采 数 据 和 操作 的 代码 在 一 起 的 话 那 
计算 将 会 很 快 ， 但 是 如 采 数 据 和 代码 是 分 离 的 ， 那 其 中 一 个 必须 移动 到 男 外 一 方 。 通 常 来 说 
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传输 序列 化 过 的 代码 肯定 比 传输 数据 要 快 得 多 ， 毕 竟 代 码 比 数据 小 太 多 了 。Spark 就 是 基于 
此 原则 建立 数据 本 地 性 的 调度 策略 。 

数据 本 地 性 是 指数 据 与 处 理 它 的 代码 有 多 远 。 根 据 数据 当前 的 位 置 用 几 个 级 别 来 确定 ， 
从 最 近 到 最 远 的 距离 为 : 

(1) PROCESS LOCAL: 数据 和 要 运行 的 代码 在 同一 个 JVM 中 ， 这 是 最 好 的 分 布 情况 。 

(2) NODE LOCAL: 数据 和 要 运行 的 代码 在 同一 个 结 点 。 例 如 可 能 在 的 同一 个 结 点 的 
HDFS 中 或 者 同一 个 结 点 的 不 同 Executor 中 。 这 会 比 PROCESS. LOCAL 慢 一 点 ， 因 为 数据 要 
在 进程 间 交 换 。 

(3) NO PREF: 数据 从 各 处 访问 都 差不多 快 ， 没 有 位 置 偏好 。 

(4) RACK LOCAL: 数据 在 同样 一 个 机 架 的 服务 器 上 。 数 据 在 不 同 的 服务 器 上 但 是 在 
同一 个 机 架 ， 所 以 需要 通过 网 络 传输 ， 通 常 经 过 一 个 交换 机 。 

(5) ANY: 数据 可 能 在 网 络 的 任何 地 方 并 且 不 再 同一 个 机 架 上 。 

Spark 倾向 于 将 所 有 的 任务 都 安排 在 最 佳 的 位 置 ， 但 不 可 能 总 是 这 样 。 当 任意 空闲 结 点 
上 没有 未 处 理 的 数据 的 时 候 ，Spark 会 选择 较 低 的 位 置 级 别 。 这 里 有 两 个 选择 : 在 有 数据 的 
结 点 上 等 待 繁忙 的 CPU 空闲 后 启动 一 个 任务 ; 立刻 局 动 一 个 任务 但 是 需要 从 远程 获取 数据 。 

Spark 通常 会 等 繁忙 的 CPU 释放 资源 ， 但 是 如 果 超 时 ， 它 会 把 数据 移动 到 远程 的 空闲 
CPU 上 进行 计算 。 数 据 本 地 性 的 各 个 级 别 间 等 竺 超时 的 回 退 时 间 可 以 分 别 配 置 或 者 统一 配 
置 。 如 果 任 务 运行 很 长 而 且 很 少 在 本 地 运行 ， 可 以 提高 设置 , 但 是 通常 默认 值 就 表现 的 不 
错 了 。 

最 后 我 们 总 结 一 下 Spark 程序 优化 所 需要 关注 的 几 个 关键 点 一 一 最 主要 的 是 数据 序列 化 
和 内 存 优化 。 对 于 大 多 数 程序 而 言 ， 采 用 Kryo 序列 化 能 够 解决 性 能 有 关 的 大 部 分 问题 。 


思考 题 


. LA Standalone 模式 为 例 ，Spark 的 应 用 提交 完整 的 工作 流程 是 怎样 进行 的 ? 

.在 Spark 集群 中 ，Spark 的 各 个 模块 是 如 何 通 过 Akka 进行 通信 的 ? 

.人 简单 陈述 一 下 Shuffle 的 工作 原理 。 

. Checkpoint 的 工作 原理 是 什么 (ER, Checkpoint 的 真正 执行 是 在 原来 提交 的 Job TA 
行 完 成 之 后 才 开 始 的 )? 


BR WW N e 


第 6 = Spark SQL 


6.1 Spark SQL 原理 和 实现 


6.2 Spark SQL 的 操作 实例 
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Spark SQL 简介 


Spark SQL 是 Spark 1. 0. 0 版 本 中 新 加 入 的 组 件 ， 是 Spark 生态 系统 中 最 活跃 的 组 件 之 
一 。 它 能 够 利用 Spark 进行 结构 化 数据 的 存储 和 操作 ， 结 构 化 数据 既 可 以 来 自 外 部 结构 化 数 
据 源 (当前 支持 Hive, JSON 和 Parquet 等 操作 ， 同 时 Spark 1. 2 版 本 开始 对 JDBC/ODBC 提 
供 文 持 ) 。 

Spark SQL 提供 了 方便 的 调用 接口 ， 用 户 可 以 同时 使 用 Scala, Java, Python 开发 基于 
Spark SQL API 的 数据 人 处理 程序 ， 并 通过 SQL 语句 来 与 Spark 代码 交互 。 当 前 Spark SQL 使 用 
Catalyst (LAEZ RX} SQL 语句 进行 优化 ， 从 而 得 到 更 有 效 的 执行 方案 ， 并 且 可 以 将 结果 存储 
到 兼容 Parquet 格式 的 外 部 存储 系统 中 。 还 有 更 重要 一 点 ， 基 于 Spark 的 RDD, Spark SQL 可 
以 和 Spark Streaming, GraphX, MLlib 等 子 框架 无 颖 集成， 这 样 就 可 以 在 一 个 技术 堆栈 中 对 
数据 进行 批 处 理 、 实 时 流 处 理 和 交互 式 查询 等 多 种 业务 处 理 。 

提 到 Spark SQL， 不 得 不 提 Hive 和 Shark, Hive 是 Shark 的 前 身 ，Shark 是 Spark SQL 的 
前 身 。 根 据 伯 克利 实验 室 提 供 的 测试 数据 ，Shark 在 基于 内 存 计 算 的 性 能 上 比 Hive 高 出 100 
倍 ， 即 使 是 基于 磁盘 计算 ， 它 的 性 能 也 比 Hive 高 出 10 倍 ， 而 Spark SQL 的 性 能 比 Shark 又 
高 出 一 到 两 个 数量 级 。 

Hive 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 ， 也 是 最 早 运行 在 Hadoop 上 的 SQL - on 
- Hadoop 工具 。 它 提供 了 一 系列 的 工具 ， 可 以 用 来 进行 数据 提取 转化 加 载 (ETL) ， 这 是 一 
种 可 以 存储 、 查 询 和 分 析 存 储 在 Hadoop 中 的 大 规模 数据 的 机 制 。Hive 还 定义 了 简单 的 类 
SQL 查询 语言 ， 称 为 HQL， 它 允许 熟悉 SQL 的 用 户 查 询 数 据 。 同 时 ， 这 个 语言 也 允许 熟悉 
MapReduce 的 开发 者 开发 自 定义 的 mapper 和 reducer 来 处 理 内 建 的 mapper 和 reducer 无 法 完 
成 的 、 复 杂 的 分 析 工 作 。 正 是 由 于 Hive 大 大 人 简化 了 对 大 规模 数据 集 的 分 析 门 槛 ， 所 以 它 很 
快 就 流行 起 来 ， 成 为 Hadoop 生态 系统 重要 的 一 份子 。 但 是 MapReduce 在 计算 过 程 中 大 量 的 
中 间 磁 盘 落 地 过 程 消耗 了 大 量 的 VO 资源 ， 这 大 大 降低 了 SQL - on - Hadoop 的 运行 效率 ， 
基于 此 ， 多 种 SQL - on - Hadoop 工具 出 现 了 ， 其 中 表现 最 为 突出 的 工具 之 一 就 是 Shark 。 

Shark 也 是 由 伯克利 实验 室 技术 团队 开发 的 Spark 生态 环境 组 件 之 一 ， 它 扩展 了 Hive, 
并 修改 了 Hive 架构 中 的 内 存 管 理 、 物 理 计划 、 执 行 三 个 模块 ， 并 使 之 可 以 运行 在 Spark 5| 
擎 上 ， 大 大 加 快 了 在 内 存 和 磁盘 上 的 查询 速度 (如 图 6-1 所 示 )。Shark 直接 建立 在 Apache/ 
Hive 代码 库 上 ， 所 以 它 自然 支持 几乎 所 有 Hive 的 特点 。 它 支持 现 有 的 Hive SQL 语言 ，Hive 
数据 格式 〈SerDes， 序 列 化 和 反 序 列 化 ) ， 用 户 上 自 定 义 函 数 (CUDE), ， 调 用 外 部 脚本 查询 ， 并 
采用 Hive fi Ota. Aiea. (AE AEH Shark 的 整体 设计 架构 对 Hive 的 依赖 性 太 强 ， 
难以 文 持 其 长 远 发 展 ， 比 如 不 能 和 Spark 的 其 他 组 件 进 行 很 好 的 集成 ， 无 法 满足 Spark 的 一 
栈 式 解决 大 数据 处 理 的 需求 。Databricks 公司 在 Spark Summit 2014 上 宣布 Shark 已 经 完成 了 
其 学 术 使 命 ， 全 面 转向 Spark SQL, 
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图 6-1 Hive fll Shark 的 架构 


相 比 于 Shark 对 Hive 的 过 度 依赖 ，Spark SQL 在 Hive 兼容 层面 仅 依赖 HOL Parser (解析 
fit) Hive Metastore (元 数据 存储 仓库 ) 和 Hive SerDe。 也 就 是 说 ， 从 HQL 被 解析 成 抽象 语 
法 树 CAST) 起 ， 就 全 部 由 Spark SQL 接管 了 。 执 行 计划 生成 和 优化 都 由 Catalyst f& si. f 
B) Scala 的 模式 匹配 等 函数 式 语言 特性 ， 利 用 Catalyst 开发 执行 计划 优化 策略 比 Hive 要 简洁 
得 多 。 此 外 ， 除 了 兼容 HQL、 加 速 现 有 Hive 数据 的 查询 分 析 以 外 ，Spark SQL 还 文 持 直接 对 
原生 RDD 对 象 进行 关系 查询 。 同 时 ， 除 了 HOL 以 外 ，Spark SQL 还 内 建 了 一 个 精简 的 SQL 
Parser， 以 及 一 套 Scala DSL。 也 就 是 说 ， 如 采 只 是 使 用 Spark SQL 内 建 的 SQL 方言 或 Scala 
DSL 对 原生 RDD 对 象 进行 关系 查询 ， 用 户 在 开发 Spark 应 用 时 完全 不 需要 依赖 Hive 的 任何 
东西 。 当 然 ， 在 重新 实现 Spark SQL 代码 的 时 候 ，Spark SQL 技术 人 员 还 吸取 了 Shark 的 一 些 
firs, MALE Ae (In - Memory Columnar Storage) 等 ,这些 优 点 使 得 Spark SQL 无 论 在 
数据 兼容 性 、 性 能 优化 、 组 件 扩展 等 方面 都 得 到 了 极 大 的 改善 。 

值得 一 提 的 是 ，Hive 社区 也 推出 了 一 个 Hive on Spark 的 项 目 一 一 将 Hive 的 执行 引擎 换 
JM Spark (如 图 6-2 所 示 ) ， 该 图 清晰 地 说 明 Shark 的 开发 已 经 彻底 结束 ， 从 Shark 转向 了 
Spark SQL; 而 Spark SQL 作为 一 个 新 的 SQL 引擎 从 底层 到 上 层 都 是 基于 Spark 而 实现 的 ， 另 
外 Hive on spark 则 用 于 帮助 Hive 用 户 从 Hadoop 无 颖 转换 到 Spark。 不 过 从 目标 上 看 ，Hive 
on Spark 更 注重 于 针对 Hive WHI] PARA HE, M Spark SQL 更 注重 于 与 Spark 其 他 组 件 的 
互 操作 和 多 元 化 数据 人 处理 。 


开发 结束 : 转向 Sprak SQL 


Sprak SQL Hive on Spark 


Sprak SQL 作为 新 的 SQL 引擎 ” 帮助 用 户 从 Hadoop 无 颖 转 到 Sprak 


图 6-2 Spark SQL 和 Hive on Spark 


Spark SQL 运行 架构 / 
Spark SQL 对 SQL 语句 的 处 理 和 关系 型 数据 库 对 SQL 语句 的 处 理 采 用 了 类 似 的 方法 ， 首 先 会 
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将 SQL 语句 进行 解析 (Parse) 形成 一 个 树 〈Tree) ， 在 后 续 的 如 绑 定 、 优 化 等 处 理 过 程 都 是 对 

Tree 的 操作 ， 而 操作 的 方法 是 采用 Rule， 通 过 模式 匹配 ， 对 不 同类 型 的 结 点 采用 不 同 的 操作 。 

Spark 的 查询 优化 带 是 Catalyst， 负 责 处 理 查 询 语句 的 解析 、 绑 定 、 优 化 、 物 理 计 划 等 整个 过 程 ， 

Catalyst 是 与 Spark 解 烛 的 一 个 独立 库 ， 是 一 个 SQL 的 执行 计划 生成 和 优化 框架 ， 作 为 Spark SQL 最 

核心 的 部 分 ， 其 性 能 优 劣 将 影响 整体 的 性 能 。 下 面 我 们 整体 上 来 分 析 一 下 Spark SQL 的 运行 架构 。 
1，TreeNode 体系 

Tree 的 具体 操作 是 通过 TreeNode ( 树 结 点 ) 来 实现 的 。TreeNode 是 Catalyst 执行 计划 的 
数据 结构 ， 是 一 个 树 状 结构 ，Logical Plans (ITIR), Expressions (表达 式 ) Physi- 
cal Operators (物理 算 子 ) 都 可 以 使 用 TreeNode 来 表示 ，TreeNode 具备 一 些 scala collection 
的 操作 能 力 和 树 遍历 能 力 。 这 棵 树 一 直 在 内 存 里 维护 ， 不 会 dump 到 磁盘 以 某 种 格式 的 文件 
存在 ， 且 无 论 在 Analyzer 后 的 逻辑 执行 计划 阶段 还 是 optimizer 后 的 逻辑 执行 计划 阶段 ， 树 的 
修改 是 以 替换 已 有 结 点 的 方式 进行 的 。 

TreeNode 内 部 带 一 个 children; Seq[ BaseType | 方法 ， 可 以 返回 一 系列 子 结 点 。TreeNode 提供 
UnaryNode ，BinaryNode ，LeafNode 三 种 特性 ， 在 这 里 可 以 理解 为 TreeNode 被 细 分 成 了 三 种 类 型 的 
Node; 其 中 UnaryNode 表示 一 元 结 点 ， 即 只 有 一 个 子 结 点 ;BinaryNode 表示 二 元 结 点 ， 即 有 左右 
子 结 点 的 二 勾结 点 ; LeafNode 表示 时 子 结 点 ， 没 有 子 结 点 的 结 点 。 针 对 不 同 的 结 点 ，TreeNode 提 
供 了 不 同 的 操作 方法 ， 对 UnaryNode 可 以 进行 Limit、Filter 等 操作 ;对 BinaryNode 可 以 进行 Join、 
Union 等 操作 ; 对 于 LeafNode 主要 进行 用 户 命令 类 操作 ， 如 Set Command 等 。 

对 Tree 的 遍历 操作 ， 主 要 是 借助 各 个 TreeNode 之 间 的 关系 ， 使 用 transformDown 操作 、 
transformUp 操作 将 Rule 应 用 到 给 定 的 树 段 ， 并 对 匹配 结 点 实施 转换 的 方法 〈 使 用 的 是 Tree- 
Node 结 点 中 的 transform 方法 ) ， 其 中 transformDown 是 默认 的 前 序 遍 历 ; 也 可 以 使 用 trans- 
formChildrenDown , transformChildrenUp 对 一 个 给 定 的 结 点 进行 操作 ， 通 过 迭代 将 Rule ( 规 
划 ) 应 用 到 该 结 点 以 及 子 结 点 。 

TreeNode 有 两 个 子 类 继承 体系 ，QueryPlan 和 Expression。QueryPlan 下 面 的 两 个 子 类 分 别 
是 LogicalPlan (逻辑 执行 计划 ) 和 SparkPlan (物理 执行 计划 )。QueryPlan 内 部 带 有 output: 
Seq[ Attribute ] , transformExpressionDown , transformExpressionUp 等 方法 ， 它 的 主要 子 类 体系 是 
LogicalPlan ， 它 在 Catalyst 优化 咒 里 有 详细 实现 。LogicalPlan 内 部 带 一 个 reference: Set[ Attrib- 
ute | 方法 ， 主 要 方法 为 resolve (name: String): Option| NamedeExpression | ， 用 于 分 析 生 成 对 应 
的 NamedExpression。 对 于 SparkPlan, ， 即 物理 执行 计划 ， 需 要 用 户 在 系统 中 目 己 实现 (Spark - 
SQL 项 目 中 ) LogicalPlan 本 身 也 有 许多 具体 子 类 ， 分 为 UnaryNode, BinaryNode, LeafNode = 
类 ， 具 体 在 org. apache. spark. sql. catalyst. plans. logical 路 径 下 。 

Expression 是 表达 式 体 系 ， 指 不 需要 执行 引擎 的 计算 ， 而 可 以 直接 计算 或 处 理 的 结 点 ， 
包括 Cast 操作 、Projection 操作 、 四 则 运算 、 逻 辑 操 作 符 运算 等 。 具 体 可 以 参考 org. apache. 
spark. sql. catalyst. expressions 包 下 的 类 。 

2. Rules 体系 

Rule| TreeType < :TreeNode[ _| |] 是 一 个 抽象 类 ， 子 类 需要 复写 apply (plan: TreeType) 方法 
来 制定 处 理 逻 辑 。Rule 的 定义 可 以 在 org. apache. spark. sql. catalyst. rules 包 下 查看 。 对 于 Rule 的 
具体 实现 是 通过 RuleExecutor 完成 的 ， 几 是 需要 处 理 执行 计划 树 (Analyze 过 程 、Optimize 过 程 、 
SparkStrategy 过 程 ) ， 实 施 规则 匹配 和 结 点 处 理 的 ， 都 需要 继承 RuleExecutor | TreeType] 抽象 类 。 
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在 RuleExecutor 的 实现 子 类 (如 Analyzer 和 Optimizer) 中 会 定义 Batch, Once 和 Fixed- 
Point 这 三 个 样 例 类 的 实例 对 象 。 其 中 每 个 Batch 代表 着 一 套 规则 ， 这 样 可 以 简便 地 、 模 块 化 
地 对 Tree 进行 transform 操作 ; Once 和 FixedPoint 是 配备 的 策略 ， 可 以 通过 策略 的 配置 来 对 
Tree 进行 一 次 操作 或 多 次 的 迭代 操作 (如 对 某 些 Tree 进行 多 次 迭代 操作 的 时 候 ， 达 到 > 
FixedPoint 迭代 次 数 或 达到 前 后 两 次 的 树 结构 没有 变化 才 停 止 操作 ) o RuleExecutor 内 部 提供 
了 一 个 Sedq [Batch] 属性 ， 里 面 定义 的 是 该 RuleExecutor 的 处 理 逻 辑 ， 上 有 具体 的 处 理 逻 辑 由 具 
体 Rule 子 类 实现 。 最 后 ，RuleExecutor 的 apply (plan; TreeType): TreeType 方法 会 按照 
batch 的 顺序 和 batch 内 的 Rules 顺序 ， 对 传人 的 plan 里 的 结 点 迭代 处 理 。 
对 于 Rule 的 使 用 拿 个 简单 的 例子 做 展示 ,在 Analyzer 过 程 中 处 理由 解析 各 (SqlParser) 生成 
的 LogicPlan Tree AYER, HE SC T EP Rule 应 用 到 LogicPlan Tree 上 (如 图 6-3 所 示 )。 


SqlParser 


(Dgenerate 


Analyzer 
@rule 
we Optimizer 


LP 


LP 
u iy "i p? 
图 6-3 SQL on Spark 

具体 在 Rule Executor 工作 的 过 程 ，Analyzer 过 程 中 使 用 了 上 自己 定义 的 多 个 batch， 如 
MultilnstanceRelations Resolution, Check Analysis, AnalysisOperators; 每 个 batch 又 由 不 同 的 
rule 构成 ， 如 Check Analysis 由 CheckResolution 、CheckAggregation 构成 ; 每 个 rule 又 有 自己 
相对 应 的 处 理 函 数 ; 同时 要 注意 的 是 ,不同 的 rule 使 用 次 数 是 不 同 的 : 如 MultilnstanceRela- 
tions 这 个 batch 中 rule 只 应 用 了 一 次 (Once), ffi} AnalysisOperators 这 个 batch 中 rule 应 用 了 
多 次 (fixedPoint = FixedPoint (50) ， 也 就 是 说 最 多 应 用 SO 次 ， 除非 前 后 迭代 结果 一 致 退 
出 )。 在 整个 sql 语句 的 处 理 过 程 中 ，Tree 和 Rule 相互 配合 ， 完 成 了 解析 、 绑 定 (在 
SparkSQL 中 称 为 Analysis) 、 优 化 、 物 理 计划 等 过 程 ， 最 终生 成 可 以 执行 的 物理 计划 。 

3. Catalyst 优化 器 

现在 已 经 知道 Catalyst 是 Spark SQL 最 重要 的 查询 引擎 ， 是 Spark SQL 最 核心 的 部 分 。 在 
介绍 Catalyst 之 前 ， 我 们 先 看 一 下 Spark SQL 由 哪些 模块 组 成 (参见 图 6-4 所 示 的 Spark 
1.2.0 的 源 人 码 )。 


spark-1.2.0 > M pom.xml > 
5 Project "| 


oject 


] sql 
catalyst [spark-catalyst 2.10] 
core [spark-sql 2.10] 
hive [spark-hive 2.10] 
hive-thriftserver 
README.md 


图 6-4 Spark SQL 源码 中 的 四 大 模块 


£ Pr 


= 


Fr Structure 


©, 


Spark 〔， ” 核心 源码 分 析 与 开发 实战 


从 图 6-4 中 可 以 看 出 Spark SQL 1.2.0 总 体 上 由 Catalyst, core, hive, hive - thriftserver 
四 个 模块 组 成 ， 其 中 catalyst 负责 处 理 查 询 语句 的 整个 处 理 过 程 ， 包 括 解 析 、 绑 定 、 优 化 、 
物理 计划 等 ; core 负责 处 理 数据 的 输入 输出 ， 从 不 同 的 数据 源 获 取 数 据 (如 RDD, Parquet 
文件 、JSON 文件 等 ) ， 然 后 将 查询 结果 输出 成 SchemaRDD; hive 负责 对 hive 处 输入 的 数据 
进行 处 理 ; hive - thriftserver 提供 CLI 和 JOBC/ODBC 接口 。 在 这 四 个 模块 中 ， 处 于 核心 地 位 
的 就 是 Catalyst， 下 面 可 以 通过 Catalyst 的 架构 图 (如 图 6-5 所 示 ) 来 分 析 一 下 Catalyst 的 一 
些 主要 组 件 的 功能 以 及 SQL 语句 通过 Catalyst 进行 查询 的 运行 流程 。 
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图 6-5 Catalyst 的 架构 网 


从 图 6-5 我 们 应 该 很 容易 地 知道 在 Spark SQL 中 SQL 语句 查询 时 Catalyst 的 运行 流程 。 
步骤 如 下 : 

(1) 将 sql 语句 通过 解析 (SqlParse) 生成 Unresolved 逻辑 计划 (包含 UnresolvedRela- 
tion, UnresolvedFunction, UnresolvedAttribute) ， 然 后 在 不 同 阶段 使 用 不 同 的 Rule 应 用 到 这 个 
逻辑 计划 上 ， 通 过 转换 完成 各 个 组 件 的 功能 。 对 于 命令 ,会 生成 一 个 叶子 结 点 ; 对 于 SQL 
Waj, H lexical 的 Scanner 来 扫描 输入 、 分 词 、 校 验 ， 如 果 符 合 语 法 就 生成 LogicalPlan 语法 
树 ， 不 符合 则 会 提示 解析 失败 。 

(2) Analyzer 使 用 Analysis Rules， 配 合 数据 元 数据 (如 Hive metastore, Schema cata- 
log) ， 完 善 Unresolved LogicalPlan 的 属性 而 转换 成 Resolved LogicalPlan。 具 体 流程 是 实例 化 
一 个 SimpleAnalyzer， 定 义 一 些 Batch， 然 后 遍历 这 些 Batch, TE Rule Executor 的 环境 下 ， 执 
fT Batch 里 面 的 Rules， 每 个 Rule 会 对 Unresolved Logical Plan 进行 Resolve， 有 些 可 能 不 会 一 
次 解析 出 ， 需 要 多 次 迭代 ， 直 到 达到 FixedPoint 迭代 次 数 或 达到 前 后 两 次 的 树 结构 没 变 化 才 
停止 操作 。 比 较 常 用 的 Rules 有 ResolveReferences, ResolveRelations, StarExpansion, Global- 
Aggregates, typeCoercionRules 和 EliminateAnalysisOperators 。 ResolveRelations ResolveFunc- 
tions 等 调用 了 Catlog 这 个 对 象 。Catlog 对 和 象 里 面 维护 着 一 个 tableName Logical Plan 的 Hash- 
Map 结果 。 通 过 这 个 Catlog 目录 来 寻找 当前 表 的 结构 ， 从 而 从 中 解析 出 这 个 表 的 字段 。 

(3) Optimizer 使 用 Optimization Rules， 将 Analyzer LogicalPlan 的 Logical Plan 和 Expression 进行 
JF. POS, itle PES DTE EJ, Optimized LogicalPlan, Xf Logical Plan 进行 转换 trans- 
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form 时 采用 先 序 遍历 (pre —order), ， 而 对 Expression transform 的 时 候 采 用 后 序 遍 历 (post — order) 。 

(4) Planner 使 用 Planning Strategies, Xj optimized LogicalPlan 进行 转换 (transform), Æ 
成 可 以 执行 的 物理 计划 。 

到 这 里 ， 我 们 就 对 Spark SQL 的 运行 架构 做 了 一 个 整体 的 说 明 ， 在 后 面 的 章节 会 结合 源 > 
人 码 对 Spark SQL 的 SQL 查询 执行 流程 做 深度 的 分 析 。 

Hive 在 Spark 上 的 使 用 

1. Hive 简介 

Hive 是 由 Facebook 提供 的 一 款 开 源 的 ETL (Extraction - Transformation - Loading) 工具 ， 
最 初 用 于 解决 海量 结构 化 的 日 志 数据 统计 问题 。 它 构建 于 Hadoop 的 HDFS 和 MapReduce 之 
上 ， 用 于 管理 和 查询 结构 化 / 非 结 构 化 数据 的 数据 仓库 。 

Hive 设计 的 目的 是 让 SQL 功能 良好 ,但 Java 技能 较 弱 的 分 析 师 可 以 查询 海量 数据 ， 因 
为 虽然 Hadoop 的 HDFS 和 MapReduce 已 经 能 够 很 好 地 解决 大 数据 的 存储 和 分 析 问 题 ， 但 是 
对 于 传统 的 数据 分 析 人 员 来 说 ， 他 们 还 面临 着 以 下 挑 成 : 理解 MapReduce 计算 模型 、 目 行 
开发 代码 实现 业务 逻辑 。Hive 的 出 现 完 美 地 解决 了 传统 数据 分 析 人 员 所 面临 的 问题 : Hive 
使 用 了 类 SQL 查询 语法 ， 最 大 限度 地 实现 了 和 SQL 标准 的 兼容 ; 同时 JDBC 接口 和 ODBC 接 
口 也 使 得 开发 人 员 更 易于 开发 应 用 。Hive 使 用 HQL 作为 查询 接口 ， 使 用 HDFS 作为 底层 存 
储 系 统 ， 使 用 MapReduce 作为 计算 引擎 ， 可 以 与 Pig、Presto 等 共享 数据 。 可 以 说 Hive 应 运 
而 生 ， 是 当时 唯一 运行 在 Hadoop 上 的 SQL -on - Hadoop TH, 

当然 Hive 本 身 也 有 很 多 缺点 ， 比 如 Hive 的 HQL 表达 能 力 有 限 ， 有 些 复杂 的 运算 用 
HQL 不 易 表 达 ; HQL 调 优 困难 ， 粒 度 较 粗 ; 但 最 重要 的 一 点 是 Hive 自动 生成 MapReduce 作 
业 ， 而 MapReduce 在 计算 过 程 中 大 量 的 中 间 人 磁盘 落 地 过 程 消耗 了 大 量 的 VO 操作 ， 降 低 了 
运行 效率 ， 这 也 直接 导致 了 其 他 更 加 优秀 的 SQL - on -Hadoop 工具 的 产生 ， 比 如 Drill, Im- 
pala 和 我 们 前 面 提 到 过 的 Shark。 但 是 对 于 Hive 本 里 而 言 ， 如 采 它 要 改进 效率 ， 最 关键 的 就 
是 蔡 换 一 个 比 MapReduce 更 高 效 的 计算 引擎 ， 而 Spark 正好 可 以 满足 这 一 点 ， 这 也 是 Hive 
社区 主推 Hive on Spark 技术 的 原因 。 

2. Hive 的 运行 架构 

Hive 的 运行 架构 如 图 6-6 所 示 ， 下 面 从 元 数据 存储 、 了 驱动 (Driver), xt HO FI Ha- 
doop 几 个 方面 来 分 析 Hive 的 运行 架构 。 

(1) 元 数据 存储 仓库 (Metastore) : Hive 的 元 数据 存储 在 Metastore 元 数据 存储 仓库 ， 像 
数据 库 和 表 的 定义 这 些 内 容 就 属于 元 数据 这 个 范畴 。 使 用 的 存储 引擎 可 以 是 Derby 或 者 
MySQL 存储 引擎， 默认 采用 的 是 Derby 存储 引擎。 

(2) 驱动 硕 (Driver): Driver 负责 将 用 户 指令 翻译 转换 为 对 应 的 MapReduce 作业 。 用 
户 通过 接口 提交 Hive 4 Driver, H Driver 进行 HQL 语句 解析 ， 此 时 从 Metastore 中 获取 表 的 
信息 ， 先 生成 逻辑 计划 ， 再 生成 物理 计划 ， 再 由 Executor 生成 Job 交 给 Hadoop 运行 ， 然 后 
由 Driver 将 结果 返回 给 用 户 。 

e 编译 顺 (Compiler): 编译 需 是 Hive 的 核心 ， 它 由 以 下 四 个 模块 组 成 : a, 语 义 解析 

at (ParseDriver) ， 将 查询 字符 串 转 换 成 解析 树 表达 式 ; b, 语 法 解析 (Semantic 
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图 6-6 Hive 的 运行 架构 


Analyzer) ， 将 解析 树 转 换 成 基于 语句 块 的 内 部 查询 表达 式 ; c, RTT NU AE JL 
(Logical Plan Generator) ， 将 内 部 查询 表达 式 转 换 为 逻辑 计划 ， 这 些 计划 由 人 逻辑 操 
作 树 组 成 ， 操 作 符 是 Hive 的 最 小 处 理 单元 ， 每 个 操作 符 处 理 代表 一 道 HDFS 操作 
或 者 是 MR 作业 ; d, Air RAE Wea (Query Plan Generator) ， 将 逻辑 计划 转化 成 
物理 计划 (MR Job), 

e 优化 器 (Optimizer): 优化 顺 是 一 个 演化 组 件 ， 当 前 它 的 规则 是 列 修剪 ， 谓 词 下 压 。 

e 执行 器 (Executor): 编译 顺 将 操作 树 切 分 成 一 个 Job 链 (DAG), TAT are ETAT 
其 中 所 有 的 Job; 如 果 Task 链 不 存在 依赖 关系 ， 可 以 采用 并 发 执行 的 方式 进行 Job 的 
执行 。 

(3) 文 持 接口 

e CLI (Common Line Interface): 为 命令 行 工 具 ， 是 默认 服务 。 局 动 方式 为 bin/hive 或 
bin/hive — - service cli, 

e HWI (Hive WeblInterface) : 为 Web 接口 ， 可 以 通过 浏览 器 访问 Hive, ERA Cm DI 
9999. ， 局 动 方式 为 bin/hive -- service hwi, 

e ThriftServer; 通过 Thrift 对 外 提供 服务 ， 默 认 端 口 为 10000， 局 动 方式 为 bin/hive -- 
service hiveserver。 

(4) Hadoop 

e 用 MapReduce 进行 计算 。 

e 用 HDFS 进行 存储 。Hive 中 的 所 有 数据 存储 在 HDFS 上 ， 包 括 数据 模型 中 的 Table 
( 表 ) 、Partition (分 区 ) , Bucket ( fff) ; Hive 的 默认 数据 仓库 目录 是 /user/hive/ 
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warehouse, 4E hive — site. xml 中 由 hive. metastore. warehouse. dir 项 定义 ; 除了 Ex- 
ternal Table, 4$ Table 在 数据 仓库 下 都 有 一 个 相应 的 存储 目录 ; 当 数 据 被 加 载 
至 表 中 时 ， 不 会 对 数据 进行 任何 转换 ， 只 是 将 数据 移动 到 数据 仓库 目录 ; Table 
被 删除 时 ， 表 数据 和 元 数据 都 被 删除 ，Extemal Table 被 删除 时 ， 元 数据 都 被 出 S) 
除 ， 表 数据 不 删除 ; 表 中 的 一 个 Partition 对 应 表 下 的 一 个 子 目 录 ; 每 个 Bucket 对 
pp T deo 
至 此 ， 我 们 对 Hive 的 运行 架构 进行 了 简单 分 析 ，Hive 的 运行 过 程 概括 为 : 首先 由 客户 
端 提供 查询 语句 ， 提 交 给 Hive, Hive 再 交 给 Driver 处 理 〈1， 编 译 希 先 编译 ， 编 译 时 要 从 
Metastore 中 获取 元 数据 信息 ， 生 成 逻辑 计划 ; 2， 生 成 物理 计划 ; 3, H Driver 进行 优化 ; 4， 
Executor 执行 时 对 物理 计划 再 进行 分 解 成 Job， 并 将 这 些 Job 提交 给 MR 的 JobTracker 运行 ， 
提交 Job 的 同时 ， 还 需要 提取 元 数据 信息 关联 具体 的 数据 ， 这 些 元 数据 信息 送 到 NameNo- 
de), JobTracker 拆 分 成 各 个 Task 进行 计算 ， 并 将 结 末 返回 或 写 入 HDFS。 
3. Hive on Spark 的 部 署 
(1) 安装 和 配置 Hadoop 集群 。 在 前 面 的 第 2 章 ， 我 们 已 经 成 功 搭 建 好 了 Hadoop 集群 ， 
并 配置 了 SSH 免 密码 登录 。 这 里 不 再 讲解 Hadoop 集群 的 搭建 。 
(2) 编译 文 持 Hadoop 和 Hive 版 本 的 Spark, Spark 的 编译 工具 有 很 多 ， 这 里 我 们 使 用 
sbt 来 对 下 载 的 源码 进行 编译 。 在 下 载 的 Spark 源码 的 HOME 目录 下 ， 输 入 以 下 命令 : 


SPARK, HADOOP VERSION =2. 4.0 SPARK YARN = true SPARK_HIVE = truesbt/sbt assembly 


sbt 会 目 动 下 载 插件 或 依赖 的 jar 包 ， 运 行 完 成 之 后 会 生成 一 个 发 布 包 : spark -1.1.0 — 
bin -2. 4. 0. tgz。 然 后 将 spark -1.1.0 - bin - 2. 4. 0. tez 复制 到 集群 的 各 个 结 点 上 上， 解压 到 指 
定 目录 后 ， 修 改 Spark 的 /SPARK_HOME/conf 目录 下 的 spark - env. sh 文件 的 信息 ， 修 改 后 
的 内 容 如 下 所 示 。 


t JAVA HOME-/usr/lib/java/jdk1.7.0 67 
e XD o w t 


SCALA HOME-/usr/lib/scala/scala-2.11.4 
HADOOP HOME-/usr/local/hadoop/hadoop-2.4.1 
HADOOP CONF DIR-/usr/local/hadoop/hadoop-2.4.1/etc/hadoop 


e irt 


T 
. 4 
rt 


10 SPARK_MASTER_IP=SparkMaster 
: t SPARK WORKER MEMORY-2g 
export SPARK WORKER CORES-2 

export SPARK WORKER INSTANCES-1 


(3) 测试 Hive on Spark, FJ LAE Spark Shell 下 对 Hive on Spark 的 部 署 做 测试 。spark - 
shell 启动 成 功 之 后 分 别 执行 以 下 三 行 命令 ， 


valhiveContext = new org. apache. spark. sql. hive. HiveContext( sc ) 
importhiveContext. _ 


hiveql( "select * from mds, user info limit 1” ). collect( ). foreach ( println ) 


如 采 执 行 成 功 ， 说 明 Hive on Spark 部 署 成 功 。 

4. Hive on Spark 的 原理 

在 分 布 式 系统 中 ， 由 于 历史 原因 ， 很 多 数据 已 经 定义 了 Hive 的 元 数据 ，Spark 技术 团队 
针对 这 一 点 ， 开 发 了 Hive on Spark M H RZ Hive。 在 这 个 框架 中 ，HiveContext 是 Spark 提 
供 的 用 户 接口 ，SparkSQL 使 用 HiveContext 很 容易 实现 对 Hive 中 数据 的 访问 。 而 且 HiveCon- 
text 继承 自 SQLContext， 所 以 在 HiveContext 的 运行 过 程 中 除了 override 的 函数 和 变量 ， 还 可 
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以 使 用 和 SQLContext 一 样 的 函数 和 变量 。 像 SQL — FE, HiveSQL 也 是 程序 的 入 口 ， 我 们 可 
以 根据 图 6-7 来 简单 比较 一 下 SQLContext 和 HiveContext 运行 过 程 的 异同 。 


sre -| e j proe Ls] ) sores 


HiveSQL HiveContext 


图 6-7 SQL fll Hive SQL 运行 过 程 的 比较 


通过 观察 图 6-7， 我 们 可 以 知道 ，HiveContext 的 运行 过 程 和 SQLContext 的 运行 过 程 基 本 
一 致 ， 只 是 根据 Hive 本 里 的 特征 进行 了 符合 Hive 的 重新 实现 ， 比 如 HiveContext 的 Catalog 
指向 的 是 Hive Metastore, E Analyzer 过 程 中 使 用 的 是 新 的 Catalog 和 functionRegistry 等 。 关 
于 HiveQL 的 查询 过 程 ， 会 在 下 一 节 结 合 源码 进行 详细 的 解析 ， 这 里 只 做 简单 介绍 ， 让 大 家 
有 个 印象 。 


TU 源码 解析 SOL 语句 和 HiveQL 语句 的 执行 过 程 


一 切 问题 来 自 源 码 ， 而 解决 之 违 同样 来 目 源码 ，SQL 和 HQL 语句 的 执行 框架 也 是 如 此 ， 


因此 ， 下 面 将 结合 源码 ， 通 过 具体 的 案例 来 详细 分 析 一 下 SQL 语句 和 Hive SQL 语句 的 执行 
流程 。 

1. SQL 语句 的 执行 流程 

对 于 用 户 编 写 的 Spark SQL 程序 ， 从 Spark SQL 到 RDD 的 DAG 关系 主要 可 以 分 为 五 个 
步 又 ， 下 面 我 们 根据 Spark 官方 提供 的 Spark SQL 的 案例 (http://spark. apache. org/docs/lat- 
est/sql — programming - guide. html) ， 结 合 源码 来 分 析 一 下 SQL 语句 的 执行 流程 。 具 体 案例 代 
码 如 下 。 


val sc: SparkContext // An existing SparkContext. 
val sqlContext = new SqlContext(sc) 


// Importing the SQL context gives access to all the public SQL functions and implici 
t conversions. 


import sqlContext._ 


// Define the schema using a case class. 
case class Person(name: String, age: String) 


// Create an RDD of Person objects and register it as a table. 

val people: RDD[Person] = sc.textFile("people.txt").map( .split(",")).mapí(p => Person 
(p(@), p(1).toInt)) 

people.registerAsTable("people") 

val teenagers = sql("SELECT name FROM people WHERE age >= 18 && age <= 19") 

// The results of SQL queries are themselves RDDs and support all the normal operatio 


ns 
teenagers.map(t => "Name: " + t(8)).collect().foreach(println) 


(1) 在 该 案例 中 ， 首 先 初 始 化 SqlContext 实例 对 象 ，SqlContext 包括 Spark SQL 执行 的 上 
下 文 与 流程 ;定义 并 注册 Table， 定 义 Table 的 字段 与 类 型 ， 然 后 注册 ， 注 册 实 际 上 就 是 把 
Table 的 元 数据 存储 在 内 存 SimpleCatalog 对 象 中 。 

SQLContext 是 SQL 模块 一 个 总 的 执行 环境 ， 在 其 内 部 包含 了 Catalog, SqlParser, Analy- 
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zer, Optimizer, LogicalPlan, SparkPlanner, QueryExecution 4&, SQLContext 对 应 的 相关 源码 
如 下 所 示 。 


classSQLContext ( €? transient val sparkContext; SparkContext ) 
extends org. apache. spark. Logging > 
withSQLConf 
withCacheManager 
with ExpressionConversions 
withUDFRegistration 
withSerializable | 


self => 


@ transient 

protected| sql] lazy val catalog; Catalog = newSimpleCatalog (true ) 

// Catalog -> 一 个 存储 « tableName ,logicalPlan > 的 map 结构 ,查找 关系 的 目录 ,注册 表 , 注 A 
表 , 查 询 表 和 逻辑 计划 关系 的 类 

@ transient 


protected[ sql | lazy valfunctionRegistry; FunctionRegistry = new SimpleFunctionRegistry 


@ transient // Analyzer -> Logical Plan HJi8 12:4) ras 
protected[ sql] lazy val analyzer; Analyzer = new Analyzer ( catalog, functionRegistry , caseSensitive = 


true ) 


@ transient //Optimizer -> Logical Plan 的 优化 需 
protected| sql | lazy val optimizer; Optimizer = DefaultOptimizer 


@ transient 


protected| sql | valddlParser = new DDLParser 


€ transient //SqlParser -> Parse 传人 的 sql 来 对 语法 分 词 ,构建 语法 树 ,返回 一 个 logical plan 
protected[ sql ] valsqlParser = | 
val fallback = new catalyst. SqlParser 
new catalyst. SparkSQLParser( fallback( |.) ) 
| 
//LogicalPlan -> 逻辑 计划 ,由 Catalyst 的 TreeNode 组 成 ,可 以 看 到 有 3 种 语法 树 
protected[ sql] defparseSql( sql: String) : LogicalPlan = | 
ddlParser( sql). getOrElse ( sqlParser( sql ) ) 
| 
| 


就 是 这 些 对 象 组 成 了 Spark SQL 的 运行 时 ， 有 表态 的 metadata Ef, Hr rss. DOT 
船 、 逻 辑 计划 、 物 理 计 划 、 执 行 运行 时 。 下 面 我 们 结合 前 面 的 Spark SQL 的 示例 继续 探讨 。 
(2) 在 实例 化 SQLContext 之 后 是 构建 RDD 的 代码 ， 代 码 如 下 : 
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val people: RDD[ Person | = sc. textFile( " people. txt" ). map(_. split(",")).map(p=> Person(p(0), 
p(1). toInt) ) 


上 述 代码 中 通过 se 的 textFile( ) 方 法 读 取 文 件 ， 并 经 过 两 次 map transformation 操作 生成 
一 个 people RDD, HH import sqlContext. 之后， 把 隐 式 转换 函数 createSchemaRDD 引入 了 上 
下 文中 ， 因 此 RDD 构建 后 对 应 转换 成 一 个 SchemaRDD, 

SchemaRDD 是 SQL 模块 增加 的 一 个 RDD 实现 类 ，SchemaRDD 在 new 出 一 个 案例 的 时 候 
需要 两 部 分 : SQLContext 和 逻辑 执行 计划 ， 对 应 的 源码 如 下 所 示 。 


classSchemaRDD( 
@ transient valsqlContext; SQLContext, 
@ transient valbaseLogicalPlan: LogicalPlan) 
extends RDD[ Row | ( sqlContext. sparkContext, Nil) with SchemaRDDLike | 


下 面 详细 描述 如 何 构 建 SchemaRDD ; 
1) 首先 ， 从 SchemaRDD 的 构建 方法 开始 ， 将 RDD 隐 式 转换 成 SchemaRDD 的 隐 式 转换 
PK createSchemaRDD, ， 在 sqlContext 中 的 源码 如 下 所 示 。 


implicit def createSchemaRDD| A < : Product; TypeTag | (rdd: RDD[ A]) = f 
SparkPlan. currentContext. set ( self) 
valattributeSeq = ScalaReflection. attributesFor[ A | 
val schema = StructType. fromAttributes ( attributeSeq ) 
valrowRDD = RDDConversions. productToRowRdd ( rdd , schema) 
newSchemaRDD( this , LogicalRDD ( attributeSeq , rowRDD ) ( self) ) 


| 
在 上 面 的 ereateSchemaRDD ( ) 方 法 中 ， 对 people 这 个 RDD 主要 做 了 三 件 事 情 : 首先 根 
据 A， 即 Person 这 个 case class 〈 样 例 类 ) ， 通 过 Scala 反射 出 了 类 的 属性 ， 对 于 table 〈 表 ) 
来 说 就 是 取 到 了 各 个 column. 〈 判 )。 下 面 是 根据 给 定 的 样本 类 反射 得 到 属性 集合 的 源码 : 


/ ** Returns a Sequence of attributes for the given case class type. * / 
defattributesFor| T; TypeTag]: Seq[ Attribute] = schemaFor[ T] match | 
case Schema( s;StructType, ) => 
s. fields. map( f => AttributeReference( f. name ,f. dataType ,f. nullable,f. metadata) ( ) ) 


| 
2) 其 次 调用 StructType 的 fromAttributes( ) 方 法 生成 一 个 包含 这 些 属性 的 case class, 


objectStructType | 
protected| sql | deffromAttributes( attributes; Seq[ Attribute ] ) : StructType = 
StructType( attributes. map (a => StructField( a. name , a. dataType ,a. nullable, a. metadata) ) ) 


| 
3) 接 下 来 调用 RDDConversions. productToRowRdd ( ) 方法 把 RDD 转化 成 一 个 RDD 
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| Row | o 


def productToRowRdd[ A < : Product] ( data; RDD[ A] ,schema: StructType) : RDD[ Row] = | 
data. mapPartitions | iterator => 
if (iterator. isEmpty) | > 
Iterator. empty 
| else | 
valbufferedIterator = iterator. buffered 
valmutableRow = new GenericMutableRow( bufferedIterator. head. productArity ) 
valschemaFields = schema. fields. toArray 
bufferedIterator. map {r => 
var 1=0 
while (i <mutableRow. length) | 
mutableRow(i) = 
ScalaReflection. convertToCatalyst( r. productElement(i) , schemaFields( i). dataType) 


i--1 


mutableRow 


| 


4) 最 后 ， 通 过 new SchemaRDD 语句 构建 出 SchemaRDD 实例 。 我 们 看 一 下 在 构建 Sche- 
maRDD 时 ， 所 需 的 构造 参数 逻辑 执行 计划 ， 即 LogicalRDD, LogicalRDD 是 LogicalPlan 的 子 
类 , TE Spark 1. 1 的 时 候 ， 这 里 使 用 的 是 SparkLogicalPlan 这 个 具体 实现 。 


case classLogicalRDD( output; Seq| Attribute] ,rdd: RDD[ Row] ) (sqlContext: SQLContext ) 


extendsLogicalPlan with MultiInstanceRelation | 
def children = Nil 


defnewInstance( ) = 


LogicalRDD( output. map(. . newInstance( ) ) , rdd) ( sqlContext). asInstanceOf| this. type | 


override defsameResult( plan; LogicalPlan) = plan match | 
caseLogicalRDD( |. , otherRDD) => rdd. id == otherRDD. id 


case _ => false 


@ transient override lazy val statistics = Statistics ( 
// TODO: Instead of returning a default value here, find a way to return a meaningful size 


// estimate forRDDs. See PR 1238 for more discussions. 
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sizeInBytes = Biglnt( sqlContext. defaultSizeInBytes ) 


) 
| 


构建 了 逻辑 执行 计划 后 ，createSchemaRDD( ) 方 法 就 可 以 构建 出 我 们 所 需要 的 Sche- 
maRDD 了 ， 到 这 里 为 止 ， 其 实 都 是 val people: RDD[ Person | = sc. textFile( " people. txt" ). map 
(_. split("","")). map(p => Person( p(0) , p 1). tolnt) ) 这 一 步 发 生 的 事情 ， 结 果 就 是 得 到 了 
一 个 SchemaRDD, 

(3) 继续 分 析 下 一 步 的 案例 代码 : people. registerAsTable (" people" ) ,这 是 SchemaRDD 
的 一 个 方法 ， 由 于 SchemaRDD 实现 了 SchemaRDDLike 这 个 特性 (Trait), PTL) registerAsT- 
able 这 个 方法 需要 在 SchemaRDDLike 这 个 类 里 找 ， 在 SchemaRDDLike 类 的 registerAsTable( ) 
方法 中 可 以 看 到 真正 注册 的 表 (table) 依赖 的 还 是 SQLContext， 对 应 的 源码 如 下 : 


/ x% 
* Registers this RDD as a temporary table using the given name. The lifetime of this temporary 


* table is tied to the | | SQLContext | | that was used to create thisSchemaRDD. 
* 
* (9 group schema 
*/ 
defregisterTempTable( tableName: String) : Unit = | 
sqlContext. registerRDDAsTable ( baseSchemaRDD , tableName ) 


| 


@ deprecated( " UseregisterTempTable instead of registerAsTable. " ," 1. 1") 
defregisterAsTable(tableName; String) : Unit = registerTempTable( tableName ) 


registerAsTable( ) 方 法 最 终 执 行 了 SQLContext 的 registerRDDAdTable( ) 方 法 ， 这 种 表 的 注 


册 由 于 信息 是 在 内 存 里 维护 的 〈 下 面 可 以 看 到 目前 是 一 个 HashMap 维护 ) ， 所 以 存活 时 间 在 
SQLContext 所 存在 的 生命 周期 内 。 查 看 registerRDDAdTable( ) 方 法 的 源码 ， 如 下 所 示 : 


/ ** 
* Registers the given RDD as a temporary table in the catalog. Temporary tables exist only 
* during the lifetime of this instance ofSQLContext. 
* 
* (9 groupuserf 
* / 
defregisterRDDAsTable( rdd: SchemaRDD ,tableName: String) : Unit = | 
catalog. registerTable( None , tableName , rdd. queryExecution. logical) 


| 
可 以 看 到 ，SQLContext 在 注册 表 的 时 候 ， 使 用 了 Catalog， 这 是 Catalog 类 的 一 个 实现 
SimpleCatalog 类 的 实例 ， 继 续 查 看 Catalog 特质 和 SimpleCatalog 类 的 源码 (下 面 只 是 截取 了 
Catalog 特质 和 SimpleCatalog 类 的 源 但 的 一 部 分 内 容 ) ， 如 下 所 示 。 


trait Catalog | 


cou Spark SQL 


/注册 新 表 并 存储 
protected def processDatabaseAndTableName( 
databaseName ; Option| String] , 
tableName; String) ; ( Option[ String | , String) = | 
if (! caseSensitive) | e 
( databaseName. map( _. toLowerCase) ,tableName. toLowerCase ) 
| else | 


( databaseName , tableName ) 


classSimpleCatalog( val caseSensitive; Boolean) extends Catalog | 
val tables = new mutable. HashMap| String, LogicalPlan | ( ) 
// 注 册 表 
override defregisterTable( 
databaseName ; Option| String] , 
tableName; String, 
plan; LogicalPlan) ; Unit = | 
val ( dbName ,tblName) = processDatabaseAndTableName ( databaseName , tableName ) 
tables += ( ( tblName, plan) ) 


// 表 的 查询 
override deftableExists( db; Option[ String] ,tableName: String) : Boolean = | 
val ( dbName ,tblName) = processDatabaseAndTableName( db, tableName ) 
tables. get( tblName) match | 
case Some(_) => true 


case None => false 


上 面 这 部 分 是 package org. apache. spark. sql. catalyst. analysis 包 里 的 代码 ，Catalog 是 一 个 
维护 table 信息 的 类 ， 能 把 注册 新 表 存 储 起 来 ， 对 旧 表 能 进行 查询 和 删除 。SimpleCatalog 的 
实现 则 是 把 tableName 和 logicalPlan 存放 在 了 一 个 HashMap 里 。 

(4) 在 转换 好 RDD 并 存储 成 表 之 后 ， 接 下 来 执行 sql 语句 : val teenagers = sql ( " SE- 
LECT name FROM people WHERE age >=10 && age <=19")， 下 面 继 续 对 这 行 代码 的 执行 
进行 深入 分 析 。 

1) 将 sql 语句 通过 解析 (SqlParse) 生成 Unresolved 逻辑 计划 。 

sql 方法 同样 是 SQLContext 的 方法 ， 其 源码 如 下 : 


/ kk 
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* Executes a SQL query using Spark, returning the result as aSchemaRDD. The dialect that is 
* used for SQL parsing can be configured with 'spark. sql. dialect '. 
* 
* (9 groupuserf 
*/ 
def sql(sqlText; String) : SchemaRDD = | 
if (dialect 22 " sql" ) | 
newSchemaRDD( this , parseSql ( sql Text ) ) 
| else | 
sys. error(s" Unsupported SQL dialect: $dialect" ) 
| 
| 


在 调用 sql 方法 里 的 parseSql (sqlText) 后 ， 开 始 对 用 户 传 入 的 SQL 语句 进行 语法 解析 。 
从 Spark 1.2 开始 ，SQL 语句 的 语法 会 首先 采用 DDLParser 的 apply 方法 进行 解析 ， 而 不 是 直 
接 采用 Spark 1. 1 时 的 SqlParser 的 apply 方法 进行 解析 。 采 用 下 面 源码 中 的 ddlParser 进行 解 
析 ， 源 码 如 下 : 


protected[ sql] defparseSql(sql: String) : LogicalPlan = | 
ddlParser( sql). getOrElse( sqlParser( sql) ) 
| 


在 DDLParser 的 apply 方法 中 ， 最 关键 的 一 行 代码 是 phrase (ddl) (new lexical. Scanner 
(input) ) ， 该 语句 就 是 调用 phrase( ) 函数 ， 使 用 SQL 语法 表达 式 ddl, xin RA $$ lexical 
读 入 的 SQL 语句 进行 解析 。 也 可 以 说 ， 只 有 输入 的 SQL 语句 先 满足 Lexical 中 定义 的 词法 规 
则 ， 它 才 会 接 下 来 使 用 phrase (ddl) 进行 语法 解析 。 最 终 apply 方法 会 返回 一 个 Option 
| LogicalPlan | 类 型 的 值 ，apply 方法 的 源码 如 下 所 示 : 


private[ sql] classDDLParser extends StandardTokenParsers with PackratParsers with Logging | 


def apply ( input; String) : Option| LogicalPlan | = | 
phrase( ddl) ( new lexical. Scanner( input) ) match | 
case Success(r,x) => Some(r) 
case x => 
logDebug( s" Not recognized as DDL: $x" ) 


None 


| 


在 语法 解析 的 这 行 代码 ddlParser( sql). getOrElse( sqlParser( sql) ) 中 ，ddlParser (sql) ff 
析 返 回 的 最 终结 果 是 Option| LogicalPlan | 类 型 的 值 ， 当 从 这 个 Option 里 取 值 时 ， 如 果 结 果 是 
None ， 会 采用 sqlParser( sql) 解析 产生 的 值 。 这 里 的 sqlParser 是 SparkSQLParser， 会 继续 调用 
他 的 父 类 的 apply 方法 进行 解析 。 这 里 我 们 不 再 深入 追踪 下 去 ， 大 家 可 以 参看 Spark 1.2 的 
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源码 部 分 。 最 终 语 法 解析 会 返回 一 个 未 绑 定 的 逻辑 计划 ， 下 面 是 语法 解析 器 的 源码 ， 在 Ab- 
stractSparkSQLParser 这 个 解析 需 的 抽象 类 中 ， 可 以 看 到 其 apply 方法 返回 的 就 是 我 们 所 需要 
的 LogicalPlan, WISU F: 


private[ sql] abstract class AbstractSparkSQLParser > 


extends StandardTokenParsers withPackratParsers | 


def apply ( input: String) : LogicalPlan = phrase( start) (new lexical. Scanner( input) ) match | 
case Success( plan, ) => plan 


casefailureOrError => sys. error( failureOrError. toString ) 
| 
| 


在 经 过 语法 解析 得 到 LogicalPlan 后 ， 会 继续 使 用 Analyzer 进一步 解析 。 

2) 通过 Analyzer 将 Unresolved LogicalPlan 转换 成 resolved LogicalPlan: Analyzer 使 用 A- 
nalysis Rules ， 配 合 数据 元 数据 Schema catalog, 367% Unresolved LogicalPlan 的 属性 而 转换 成 
resolved LogicalPlan , 

首先 分 析 Analyzer 执行 的 入 口 点 : 这 个 阶段 一 开始 ， 我 们 找 不 到 Analyzer 解析 应 该 从 哪 
里 开始 ， 由 于 Spark 的 源码 使 用 Scala 语言 的 Lazy 变量 ， 所 以 只 有 等 到 Job 被 提交 后 这 一 系 
列 的 plan 才 开 始 真 正 执行 ， 我 们 知道 ， 在 Spark core P, Job 执行 的 时 候 需 要 通过 调用 RDD 
的 getDependencies 方法 来 解决 RDD 的 依赖 关系 ，Spark SQL 就 借助 了 这 一 执行 路 径 对 未 绑 定 
的 逻辑 计划 (Unresolved LogicalPlan) 进行 解析 和 优化 。 

打开 SchemaRDD 的 getDependencies 方法 ， 我们 看 到 了 queryExecution. toRdd 这 人 句 代 码 ， 
在 执行 toRdd 之 前 ， 前 面 rdd 的 转换 、 逻 辑 执行 计划 的 生成 、 分 析 、 优 化 工作 都 还 没有 实际 
进行 数据 的 计算 ， 直 到 执行 了 toRdd (lazy val toRdd: RDD[ Row ] = executedPlan. execute( ) ) i& 
名 之 后 ， 这 一 系列 的 plan 才 真正 执行 。SchemaRDD 的 getDependencies 方法 的 源码 如 下 : 


override protected defgetDependencies: Seq[ Dependency| _] | = | 


schema // Force reification of the schema so it is available on executors. 


List ( newOneToOneDependency ( queryExecution. toRdd ) ) 


| 
在 SchemaRDD 的 getDependencies 方法 中 ， 构 建 SchemaRDD 父 依 赖 时 ， 调 用 了 queryEx- 
ecution 的 toRdd 方法 ， 而 queryExecution 的 初始 化 是 在 SchemaRDDLike 中 实现 的 ， 最终 还 是 
要 调用 sqlContext. executePlan( ) 方 法 ，SchemaRDDLike 中 初始 化 queryExecution 的 源码 如 下 : 


private[ sql] traitSchemaRDDLike | 
(? transient defsqlContext; SQLContext 


(? transient valbaseLogicalPlan: LogicalPlan 


private[ sql] defbaseSchemaRDD ; SchemaRDD 


lazy valqueryExecution = sqlContext. executePlan ( baseLogicalPlan ) 
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| 


在 初始 化 queryExecution 的 源码 中 ， 继 续 调 用 sqlContext. executePlan( ) 方 法， 该 方法 会 
生成 一 个 QueryExecution 对 象 ， 其 中 executPlan 方法 中 传人 的 参数 plan 正 是 前 面 语法 解析 后 
生成 的 未 绑 定 的 逻辑 计划 ， 即 构建 SchemaRDD 的 第 二 个 参数 。executPlan 方法 的 源码 如 下 : 


protected| sql | defexecutePlan( plan; LogicalPlan) ; this. QueryExecution = 


new this. QueryExecution | val logical = plan | 


在 executPlan 方法 中 初始 化 QueryExecution 成 功 后 ， 此 时 最 关键 的 部 分 来 了 ， 因 为 
QueryExecution 才 真 正 调 用 了 SQLContext 对 逻辑 执行 计划 的 处 理 ， 下 面 详细 解析 QueryExecu- 
tion 的 源码 ， 源 码 如 下 : 


protected abstract classQueryExecution 


def logical : LogicalPlan 


lazy val analyzed = ExtractPythonUdfs( analyzer( logical) ) 
lazy valwithCachedData = useCachedData( analyzed ) 
lazy valoptimizedPlan = optimizer( withCachedData ) 


lazy valsparkPlan - | 
SparkPlan. currentContext. set ( self) 
planner( optimizedPlan ). next( ) 


| 


//executedPlan should not be used to initialize any SparkPlan. It should be 
// only used for execution. 


lazy valexecutedPlan; SparkPlan = prepareForExecution( sparkPlan ) 


/ *** Internal version of the RDD. Avoids copies and has no schema * / 
lazy valtoRdd; RDD[ Row] = executedPlan. execute( ) 
| 


在 QueryExecution 里 ， 首 先 就 是 初始 化 Analyzer (解析 做) ， 对 未 绑 定 的 逻辑 计划 进行 
解析 。 


lazy val analyzed = ExtractPythonUdfs( analyzer( logical) ) 


Analyzer 的 初始 化 如 下 : 


@ transient // Analyzer -> Logical Plan 的 语法 分 析 器 
protected| sql] lazy val analyzer; Analyzer = 


new Analyzer( catalog, functionRegistry , caseSensitive = true ) 
Analyzer 会 使 用 Catalog 和 FunctionRegistry 将 UnresolvedAttribute 和 UnresolvedRelation 44 


换 为 catalyst 里 全 类 型 的 对 象 。Analyzer 里 面 有 fixedPoint 对 象 ， 一 个 Seq [Batch] 属性 。 关 
键 的 概念 如 下 。 
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e FixedPoint; 相当 于 迭代 次 数 的 上 限 。 

e Batch: 批 次 ， 这 个 对 象 是 由 一 系列 Rule 组 成 的 ， 采 用 一 个 策略 〈 策 略 其 实 是 迁 代 几 
次 的 别名 ) 。 

。Strategy ;最 大 的 执行 次 数 ， 如 果 执 行 次 数 在 最 大 迭代 次 数 之 前 就 达到 了 Fixed Point (S) 
(定点 数 ) ， 策 略 就 会 停止 ， 不 再 应 用 了 。 

Analyzer 的 源码 如 下 所 示 。 


extendsRuleExecutor| LogicalPlan | with HiveTypeCoercion | 
val resolver = if ( caseSensitive) caseSensitiveResolution else caseInsensitiveResolution 


// TODO: pass this in as a parameter. 
valfixedPoint = FixedPoint( 100) 


/ kk 
* Override to provide additional rules for the " Resolution" batch. 
* / 
valextendedRules; Seql Rule| LogicalPlan | | = Nil 


lazy val batches ;Seq[ Batch | = Seq( 

Batch( " MultilnstanceRelations" , Once, 
NewRelationInstances ) , 

Batch( " Resolution" , fixedPoint , 
ResolveReferences : : 
ResolveRelations : : 
ResolveSortReferences : : 
NewRelationInstances : : 
ImplicitGenerate : : 

StarExpansion : : 

ResolveFunctions : ; 
GlobalAggregates : : 
UnresolvedHavingClauseAttributes : : 
TrimGroupingAliases : : 
typeCoercionRules ++ 

extendedRules :  *), 

Batch( " Check Analysis" , Once, 
CheckResolution , 

CheckAggregation ) , 

Batch( " AnalysisOperators" , fixedPoint, 
EliminateAnalysisOperators ) 


) 
Analyzer 解析 主要 是 根据 这 些 Batch 里 面 定 义 的 策略 和 Rule 来 对 Unresolved 的 逻辑 计划 
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进行 解析 的 。 这 里 Analyzer 类 本 号 并 没有 定义 执行 的 方法 ， 而 是 要 从 它 的 父 类 RuleExecutor 
| LogicalPlan | 寻找 。 

RuleExecutor 是 执行 Rule 的 执行 环境 ， 它 会 将 包含 了 一 系列 Rule 的 Batch 进行 执行 ， 这 
个 过 程 都 是 串 行 的 。 具 体 的 执行 方法 定义 在 RuleExecutor 的 apply 里 ， 对 应 的 源码 如 下 1 


def apply(plan:TreeType) ; TreeType = | 


varcurPlan = plan 


batches. foreach | batch 2» 
valbatchStartPlan = curPlan 
var iteration = | 
varlastPlan = curPlan 


var continue = true 


// Run until fix point (or the max number of iterations as specified in the strategy. 
while (continue) | 
curPlan = batch. rules. foldLeft( curPlan) | 
case ( plan,rule) => 
// 这 里 将 调用 各 个 不 同 Rules 的 apply 方法 ,将 unresolved Relation 进行 绑 定 
val result = rule( plan ) 
if (! result. fastEquals( plan) ) | 
logTrace ( 
sun 
| === Applying Rule$ | rule. ruleName} === 
|$ | sideBySide( plan. treeString , result. treeString) . mkString( " n") | 


. stripMargin ) 


result // 返 回 作 用 后 的 ResultPlan 
| 
iteration += 1 
[如果 和 迭代 次 数 大 于 该 策略 的 最 大 友人 代数 ,就 停止 循环 
if (iteration > batch. strategy. maxJterations | 
// Only log if this is a rule that is supposed to run more than once. 
if (iteration ! 22) | 
logInfo( s" Max iterations ($ | iteration — 1] ) reached for batch$ | batch. name] " ) 


| 


continue = false 


if ( curPlan. fastEquals( lastPlan) ) | 
logTrace( 


s" Fixed point reached for batch $ | batch. name} after$ | iteration — 1]. iterations. " ) 


A604 Spark SQL 


continue = false 


| 


lastPlan = curPlan 


if (! batchStartPlan. fastEquals( curPlan) ) | 
logDebug( 


s" "on 


| === Result of Batch $ | batch. name} === 

1$ | sideBySide( plan. treeString , curPlan. treeString) . mkString( " Wn" ) | 
""". stripMargin) 
| else | 


logTrace( s" Batch$ | batch. name} has no effect. " ) 


| 


curPlan // 返 回 绑 定 后 的 逻辑 计划 
| 


TER 到 apply 方法 中 包含 了 一 个 while 循环 ， 每 个 Batch 下 的 Rules 都 对 当前 的 plan 进 
行 作 用 ， 这 个 过 程 是 迭代 的 ， 直 到 达到 FixedPoint 或 者 最 大 迭代 次 数 。 

到 此 ，Analyzer 对 UnResolve Logical Plan 进行 解析 ， 生 成 了 Resolved Logical Plan。 总 结 

一 下 流程 : 

e 先 实 例 化 一 个 Analyzer， 这 里 使 用 的 是 它 的 子 类 SimpleAnalyzer。 

e 定义 一 些 Batch， 然 后 在 RuleExecutor 的 环境 下 遍历 这 些 Batch, 

e e Batch 里 面 的 Rules， 每 个 Rule 会 对 Unresolved Logical Plan 347 Resolve, @ LE ny 

AER ART TRXETXKGNIN. ELPA BE HIE UK BAB FixedPoint, 

这 些 Rules 里 比较 常用 的 就 是 ResolveReferences, ResolveRelations, StarExpansion , 
GlobalAggregates 、typeCoercionRules 和 EliminateAnalysisOperators。 对 于 各 个 Rule 所 代表 的 具 
体 合 义 ， 这 里 不 再 过 多 解释 。 

3) Optimizer (优化 项 ) 的 实现 和 处 理 方式 同 Analyzer 很 相似 ， 只 是 出 于 不 同 的 处 理 阶 
Ex, Her AA], Optimizer m RuleExecutor， 并 实现 了 一 批 规则 ， 这 批 规则 会 同 
zer 一 样 对 输入 的 plan 进行 递归 处 理 ， 下 面 从 默认 优化 器 的 源码 来 详细 分 析 优化 器 的 执行 
fe, DROP: 


objectDefaultOptimizer extends Optimizer | 
val batches = 
Batch( " Combine Limits" , FixedPoint( 100) , 
CombineLimits) : : 
Batch( " ConstantFolding" , FixedPoint( 100) , 
NullPropagation , 
ConstantFolding , 
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LikeSimplification, 
BooleanSimplification , 

SimplifyFilters , 
SimplifyCasts , 
SimplifyCaseConversionExpressions , 
Optimizeln) :: 

Batch( " Decimal Optimizations" , FixedPoint( 100) , 
DecimalAggregates) :: 

Batch( " Filter Pushdown" , FixedPoint( 100) , 
UnionPushdown , 
CombineFilters , 
PushPredicateThroughProject , 
PushPredicateThroughJoin , 
ColumnPruning) :: Nil 


| 

从 以 上 源码 中 可 知 (Spark 1. 2 的 源码 ) Optimizer 里 的 Batch 包含 了 4 类 优化 策略 : 

€ Combine Limits 合并 Limits, 

e ConstantFolding 常量 合并 。 

e Decimal Optimizations 。 

e Filter Pushdown 过 滤器 下 推 ， 每 个 Batch 里 定义 的 优化 伴随 对 象 都 定义 在 Optimizer Hi, 

Optimizer 的 优化 策略 不 仅 有 对 Logical Plan 进行 优化 ， 而 且 对 Logical Plan 中 的 Expression 也 
进行 了 优化 ， 究 其 原理 就 是 遍历 树 ， 然 后 应 用 优化 的 Rule， 但 是 注意 一 点 ， 对 Logical Plan trans- 
from 是 先 序 遍 历 (pre -order) ， 而 对 Expression transfrom 是 后 序 遍历 (post — order) 。 

在 这 里 简单 介绍 与 Expression 相关 的 类 ， 主 要 是 用 到 了 references 方法 和 outputSet 方法 ， 
references 方法 主要 是 Logical Plan 或 Expression 结 点 的 所 依赖 的 那些 Expressions, mj outputSet 
是 Logical Plan 所 有 的 Attribute 的 输出 ， 例 如 ，Aggregate 是 一 个 Logical Plan, 它 的 references 
方法 的 实现 就 是 group by 的 表达 式 和 aggreagate 的 表达 式 的 并 集 去 重 。 


case class Aggregate( 
eroupingExpressions; Seq[ Expression | , 
aggregateExpressions ; Seq| NamedExpression | , 
child ; LogicalPlan ) 
extendsUnaryNode | 


override def output = aggregateExpressions. map( . . toAttribute ) 
override def references = 


( groupingExpressions + + aggregateExpressions ) . flatMap(_. references). toSet 


| 
对 于 Optimizer 过 程 中 用 到 的 各 个 Rule 的 含义 这 里 也 不 作 详 解 了 。 总 结 一 下 整个 流程 : 
Optimizer 采用 基于 规则 (Rule) 集 的 优化 框架 ， 将 规则 作用 于 Logical Plan 及 其 内 部 的 Ex- 
pression， 从 而 达到 优化 逻辑 计划 的 目的 。 其 中 主要 的 优化 的 策略 总 结 起 来 是 合并 、 列 裁剪 、 
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4) Planner 使 用 Planning Strategies (规划 策略 ) ， 对 optimized LogicalPlan 进行 转换 
(transform) ， 生 成 可 以 执行 的 SparkPlan (物理 计划 )。 物 理 计 划 转 换 为 RDD， 通 过 调用 
SparkPlan. execute 把 树 形 结果 的 物理 计划 转换 为 RDD 的 DAG 关系 。 > 

Optimizer 对 输入 的 Analyzed Logical Plan 优化 后 ， 会 有 SparkPlanner 来 对 Optimized Logi- 
cal Plan 进行 转换 ， 生 成 Physical plans。 在 下 面 代码 中 ，planner 的 初始 化 对 象 就 是 Spark- 
Planner 对 象 。planner (optimizedPlan) 方法 实际 上 调用 的 是 SparkPlanner 的 基 类 QueryPlan- 
ner 的 apply 方法 ， 然 后 会 返回 一 个 Iterator| PhysicalPlan | 。 


protected abstract classQueryExecution | 


def logical : LogicalPlan 


lazy val analyzed = ExtractPythonUdfs( analyzer( logical) ) 
lazy valwithCachedData = useCachedData( analyzed ) 
lazy valoptimizedPlan = optimizer( withCachedData ) 


lazy valsparkPlan - | 
SparkPlan. currentContext. set ( self) 


planner( optimizedPlan ). next ( ) 


| 


SparkPlanner 继承 『 SparkStrategies, SparkStrategies 继承 [ QueryPlanner, SparkStrategies 
包含 了 一 系列 特定 的 Strategies ， 这 些 Strategies 是 继承 上 自 QueryPlanner 中 定义 的 GenericStrate- 
gy， 它 定义 接受 一 个 Logical Plan ， 生 成 一 系列 的 Physical Plan, 


protected[ sql] classSparkPlanner extends SparkStrategies | 


valsparkContext : SparkContext = self. sparkContext 
valsqlContext; SQLContext = self 
defcodegenEnabled = self. codegenEnabled 
defnumPartitions = self. numShufflePartitions 


val strategies :Seq| Strategy | = 
extraStrategies ++ ( 
CommandStrategy( self) :: 
DataSourceStrategy :: 
TakeOrdered : : 
HashAggregation : : 
LeftSemiJoin : : 
HashJoin : : 
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InMemoryScans : : 

ParquetOperations : ; 

BasicOperators : : 

CartesianProduct : : 

BroadcastNestedLoopJoin :: Nil) 
| 


QueryPlanner 是 SparkPlanner 的 茹 类 ， 定 义 了 一 系列 的 关键 点 ， 如 GenericStrategy, plan- 
Later 和 apply, QueryPlanner 的 源码 如 下 : 


abstract classGenericStrategy[ PhysicalPlan < : TreeNode| PhysicalPlan] ] extends Logging | 
// 接 受 一 个 LogicalPlan ,返回 一 个 Seq[ PhysicalPlan | 
def apply ( plan: LogicalPlan) : Seq[ PhysicalPlan | 


abstract classQueryPlanner| PhysicalPlan < ; TreeNode| PhysicalPlan ] | | 
/ ** A list of execution strategies that can be used by the planner * / 
def strategies: Seq| GenericStrategy [| PhysicalPlan | | 
// Jj phgsical plan 返回 一 个 占 位 符 
protected defplanLater( plan; LogicalPlan) = apply( plan). next( ) 


def apply ( plan; LogicalPlan) : Iterator[ PhysicalPlan | = | 
/在 逻辑 计划 上 应 用 规则 策略 集 (Strategies) ,并 返回 经 策略 集 优 化 后 的 物理 计划 
val iter = strategies. view. flatMap(. ( plan) ). tolterator 
assert( iter. hasNext, s" No plan for$plan" ) 


iter // 返 回 所 有 的 PhysicalPlan ( 物理 计划 ) 


| 


SQLContext 类 中 的 prepareForExecution 变量 其 实 是 一 个 RuleExecutor[ SparkPlan], ， 它 会 
调用 RuleExecutor 的 apply 方法 对 前 面 生 成 的 PhysicalPlan 应 用 Rule 进行 匹配 ， 最 终生 成 一 
个 Spark Plan, Spark Plan 是 Catalyst 里 经 过 所 有 Strategies apply 的 最 终 的 物理 执行 计划 的 抽 
象 类 ， 它 只 是 用 来 执行 Spark job 的 。 


protected[ sql | valprepareForExecution = new RuleExecutor| SparkPlan] | 
val batches = 
Batch ( " Add exchange" , Once, AddExchange( self) ) :: Nil 
| 


Spark Plan 继承 Query Plan| Spark Plan], ， 里 面 定 义 了 Spark SQL 的 sql 语句 启动 执行 的 
execute 方法 。 


abstract classSparkPlan extends QueryPlan| SparkPlan | with Logging with Serializable | 
self. Product => 
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@ transient 
protected| spark | valsqlContext = SparkPlan. currentContext. get( ) 
protected defsparkContext = sqlContext. sparkContext 
valcodegenEnabled: Boolean = if (sqlContext | — null) | 
sqlContext. codegenEnabled e 
| else | 


false 


override defmakeCopy ( newArgs: Array| AnyRef]) : this. type = | 
SparkPlan. currentContext. set( sqlContext ) 


super. makeCopy ( newArgs ) 


defoutputPartitioning: Partitioning = UnknownPartitioning(0) // TODO: WRONG WIDTH! 


def requiredChildDistribution ; Seq| Distribution | = 
Seq. fill ( children. size) ( UnspecifiedDistribution ) 


def execute( ) : RDD[ Row] // /真正 执行 查询 的 方法 execute ,返回 的 是 一 个 RDD 
| 


最 后 ，execute 方法 执行 完 之 后 返回 的 是 一 个 RDD， 然 后 就 可 以 使 用 RDD 的 transforma- 
tion 和 action 来 进行 Spark SQL 的 真正 执行 了 。 

2. HiveQL 语句 的 执行 流程 

图 6-8 是 HiveQL 的 运行 流程 图 : 


salText 未 解决 的 
d LogicalPlan 
SchemaRDD 


图 6-8 HiveQL 的 运行 流程 图 


在 HiveQL 的 执行 流程 图 中 ， 首 先 根据 dialect 值 ， 将 sql 语句 或 者 hiveql 语句 解析 成 Un- 
resolved LogicalPlan， 其 次 由 Analyzer 解析 器 将 Unresolved LogicalPlan 转换 为 Resolved Logical- 
Plan ， 然 后 由 Optimizer 对 resolved LogicalPlan 进行 优化 ， 生 成 Optimized LogicalPlan ， 接 着 使 
用 hivePlanner 将 LogicalPlan 转换 成 PhysicalPlan， 最 后 将 PhysicalPlan 转换 成 SparkPlan (可 
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执行 物理 计划 ) ， 并 执行 该 物理 计划 ， 生 成 SchemaRDD。 

下 面 我 们 结合 Spark 的 源 代 码 来 分 析 HiveQL 语句 的 执行 流程 。 

(1) 首先 sql 语句 或 者 hiveql 语句 通过 HiveQl. parseSql (hqlQuery) 解析 成 Unresolved 
LogicalPlan, 

在 HiveContext 中 ， 提 供 了 sql( ) 方 法 和 hiveql( ) 方 法 两 种 查询 语句 。 首 先 来 看 sql 查询 
语句 的 源码 。 


override defsql( sqlText: String) : SchemaRDD = | 
// TODO: Create a framework for registering parsers instead of justhardcoding if statements. 
if (dialect 22 " sql" ) | 
super. sql ( sqlText ) 
else if (dialect == " hivegl" ) | 
newSchemaRDD( this , ddIParser( sqlText). getOrElse( HiveQl. parseSql( sqlText ) ) ) 
else | 


sys. error(s" Unsupported SQL dialect; $dialect. Try 'sql 'or 'hiveql '" ) 


| 


在 上 述 源码 中 ，if( dialect == "sql" ) 时 ， 会 调用 SQLContext 的 sql 方法 进行 解析 : if( di- 
alect == " hivegl" ) 时 ， 才 会 使 用 HiveQL 解析 右 。 在 这 里 我 们 只 拿 HiveContext 的 hiveql 方法 
来 分 析 整 个 执行 过 程 。 

对 于 hiveql 方法 ， 它 的 语法 解析 采用 的 是 HiveQl. parseSql(hqlQuery ) 。 


@ deprecated( " hiveql( ) is deprecated as the sql function now parses using HiveQL by default. " + 
s" The SQL dialect for parsing can be set using$ | SQLConf. DIALECT} " ," 1. 1") 
defhiveql( hqlQuery ; String) : SchemaRDD = new SchemaRDD ( this , HiveQl. parseSql ( hqlQuery ) 


其 中 parseSql 方法 会 通过 hglParser (sql) 继续 调用 AbstractSparkSQLParser 的 apply 方法 来 进 
行 解析 ， 这 里 的 hqlParser 实际 上 是 ExtendedHiveQlParser ， 它 也 是 AbstractSparkSQLParser 的 子 类 。 


/ xx Returns aLogicalPlan for a given HiveQL string. * / 
defparseSql (sql: String) : LogicalPlan = hqlParser( sql ) 


打开 AbstractSparkSQLParser 的 apply 方法 ， 我 们 可 以 看 到 它 的 语法 解析 和 SQL 查询 的 语 
法 解析 几乎 是 一 样 的 。 这 里 不 做 详 谈 。 


private[ sql] abstract class AbstractSparkSQLParser 
extends StandardTokenParsers withPackratParsers | 
def apply ( input: String) : LogicalPlan = phrase( start) (new lexical. Scanner( input) ) match | 
case Success( plan, ) => plan 


casefailureOrError => sys. error( failureOrError. toString ) 
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需要 注意 的 是 ， 在 这 个 解析 过 程 中 ，hivedl 语句 会 通过 getAst() 方法 获取 AST 树 ， 然 后 
根据 AST 树 中 的 关键 字 继 续 进 行 解析 。 其 中 nativeCommands 表示 的 是 非 select 语句 ， 这 类 语 
句 的 执行 时 间 不 会 因为 条 件 的 不 同 而 有 很 大 的 差异 ， 基 本 上 都 能 在 较 短 的 时 间 内 执行 完 ， 这 
种 情况 下 的 语句 会 转换 成 command 类 型 的 LogicalPlan， 而 非 nativeCommands, selec 语句 会 通 > 
过 NodeToPlan 方法 生成 Logical Plan。 


/ xx CreatesLogicalPlan for a given HiveQL string. */ 
defcreatePlan( sql; String) = | 
try | 
val tree = getAst( sql) 
if ( nativeCommands contains tree. getText) | 
NativeCommand( sql ) 
| else | 
nodeToPlan(tree) match | 
caseNativePlaceholder 2 » NativeCommand( sql ) 


case other => other 


(2) Analyzer 解析 器 结合 Hive 的 元 数据 Metastore 进行 绑 定 ， 生 成 Resolved LogicalPlan, 
这 里 的 Catalog 的 实例 就 是 HiveMetastoreCatalog。 


@ transient 


override protected| sql] lazy val catalog 2 new HiveMetastoreCatalog( this) withOverrideCatalog 


// Note thatHiveUDFs will be overridden by functions registered in this context. 
@ transient 
override protected| sql] lazy valfunctionRegistry — 


new HiveFunctionRegistry with OverrideFunctionRegistry 


/ * An analyzer that uses the Hivemetastore. * / 
@ transient 
override protected| sql] lazy val analyzer = 
new Analyzer( catalog, functionRegistry , caseSensitive = false) | 
override valextendedRules = 
catalog. CreateTables : : 
catalog. PreInsertionCasts : : 
ExtractPythonUdfs : : 
Nil 
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hiveql 的 解析 过 程 和 sql 相似 ， 这 里 关键 是 找到 QueryExecution 类 ， 对 于 hiveql 而 言 ， 它 
选取 的 是 一 个 新 的 QueryExecution 类 ， 其 他 的 解析 过 程 和 sql 的 解析 一 样 。 


abstract classQueryExecution extends super. QueryExecution | 
override lazy val analyzed - | 
valdescribedTables = logical match | 
caseNativeCommand( describedTable( tbl) ) 2» tbl :: Nil 
caseCacheTableCommand(tbl, , ) =>tbl :: Nil 


case _ => Nil 


// Make sure any test tables referenced are loaded. 
valreferencedTables = 
describedTables ++ 
logical. collect | caseUnresolvedRelation( databaseName ,name,_) => name | 
val referencedTestTables = referencedTables. filter( testTables. contains ) 
logDebug(s" Query references test tables; $ | referencedTestTables. mkString( " ," ) |" ) 
referencedTestTables. foreach( loadTestTable ) 
// Proceed with analysis. 


analyzer ( logical) 


(3) Optimizer 对 resolved LogicalPlan 进行 优化 ， 生 成 optimized LogicalPlan, ĶR Query 
相关 的 操作 ， 其 他 的 优化 依然 使 用 的 是 Hive 目 吴 的 执行 引擎 。 

(4) 使 用 hivePlanner 将 LogicalPlan 转换 成 PhysicalPlan， 这 里 的 hivePlanner 继承 上 自 
SparkPlanner 并 实现 了 Hivestrategies 特质 。 


valhivePlanner = new SparkPlanner with HiveStrategies | 


valhiveContext = self 


override val strategies ; Seq| Strategy | = extraStrategies ++ Seq( 
DataSourceStrategy , 
CommandStrategy ( self) , 
HiveCommandStrategy ( self) , 
TakeOrdered , 
ParquetOperations , 
InMemoryScans , 
ParquetConversion , //Must be before HiveTableScans 
HiveTableScans , 
DataSinks , 
Scripts , 
HashAggregation , 
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LeftSemiJoin, 
HashJoin, 
BasicOperators , 
CartesianProduct , 


BroadcastNestedLoopJoin 


| 


(5) 通过 prepareForExecution ( ) 方法 将 PhysicalPlan 转换 成 SparkPlan (可 执行 物理 计 
划 ) ， 再 调用 executedPlan. execute( ) 方 法 执行 SparkPlan， 最 后 使 用 map(_. copy) 将 结果 导入 
SchemaRDD, 


lazy valexecutedPlan; SparkPlan = prepareForExecution ( sparkPlan ) 


/ ** Internal version of the RDD. Avoids copies and has no schema * / 


lazy valtoRdd; RDD[ Row] = executedPlan. execute( ) 


以 上 就 是 对 Spark SQL 中 的 sql 语句 和 hiveql a PUTIN UMS EDT, FAAS sql 语句 和 
hivegl 的 源码 ， 对 于 我 们 在 生产 环境 下 使 用 Spark SQL 遇 到 各 种 各 样 的 问题 时 ， 能 很 方便 地 
去 查找 问题 原因 。 同 时 有 利于 我 们 对 Spark SQL 的 性 能 调 优 。 


接 下 来 通过 几 个 具体 的 例子 来 学 习 Spark SQL 的 具体 应 用 。 
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通过 下 面 这 个 案例 展示 Spark SQL 的 文本 操作 方式 和 DSL (Domain - Specific Language, 
领域 特定 语言 ) 的 具体 使 用 。 

1. 数据 准备 工作 

(1) 在 进行 SQL 语句 操作 之 前 ， 我 们 把 演示 需要 的 数据 上 传 到 HDFS 文件 系统 的 data 
目录 下 ， 这 里 的 数据 是 people. txt 文件 ， 里面 的 内 容 如 下 : 


Michael ,29 
Nicolas ,30 
Justin,19 


(2) 启动 HDFS, 7E Hadoop 的 $HOME/sbin 目录 下 调用 start - dfs 命令 。 
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root@SparkMaster: /usr/Local/hadoop/hadoop-2.4.1/sbin# ./start-dfs.sh 

Starting namenodes on [SparkMaster ] 

SparkMaster: starting namenode, logging to /usr/local/hadoop/hadoop-2.4.1/Logs/had 
oop-root-namenode-SparkMaster.out 

SparkWworker2: ssh: connect to host SparkWorker2 port 22: No route to host 
SparkWworkeri: ssh: connect to host SparkWorkeri port 22: No route to host 

Starting secondary namenodes [9.9.9.9] 

0.9.9.8: starting secondarynamenode, logging to /usr/local/hadoop/hadoop-2.4.1/109g 
sS/hadoop-root-secondarynamenode-SparkMaster.out 


(3) 4£/root/Downloads 目录 下 的 people. txt 文件 上 传 到 HDFS AY data 目录 下 。 


root @ SparkWorkerl ;/usr/local/hadoop/hadoop - 2. 4. 1 # . /bin/hadoop fs — copyFromLocal /root/ 
Downloads/ people. txt /data/ 


(4) 在 WebUI 控制 人 台 查 看 HDFS 文件 系统 中 上 传 的 文件 ， 如 图 6-9 所 示 。 


Browse Directory 


/data Go! 
Permission Owner Group Size Replication Block Size Name 
-DW-r—-r-- roat supergroup 4.7 KB 2 128 MB README.md 
-IW-r--r-- root supergroup 211.05 KB 2 128 MB SogouQ.mini 
drwxr-xr-x root supergroup 0B 0 0B graph 
drwxr-xr-x root supergroup 0B 0 0B 
-nw-r—-r-- root supergroup 93B 2 128 MB one.tsv 上 传 的 文件 
-rw-F-F- root supergroup 32B 2 128 MB people.txt 


图 6-9 上传 people. txt 文件 到 HDFS 上 


2. 通过 Spark SQL 的 SQL 语句 查询 完整 的 代码 
这 里 的 语句 查询 演示 采用 的 还 是 Spark 官网 提供 的 示例 ， 具 体 代 码 如 下 : 


val sqlContext = new org. apache. spark. sql. SQLContext( sc ) 
import sqlContext. _ 


case class Person ( name : String, age ; Int ) 


val people = sc. textFile( " hdfs ://Spark Master :8000/data/ people. txt" ). map(_. split(" ," ) ) 
. map( p => Person( p(0) ,p(1). trim. toInt) ) 
people. registerAsTable( " people" ) 


val teenagers = sqlContext. sql( " SELECT name FROM people WHERE age >=13 AND age <=19" ) 
teenagers. map(t =>" Name; " +t(0) ). collect( ). foreach( println ) 


3. 代码 解析 
(1) 首先 会 初始 化 一 个 sqlContext， 它 是 SQL 语句 查询 的 人口 。 
(2) importsqlContext._ 主 要 是 为 了 把 隐 式 函数 createSchemaRDD 引入 上 下 文中 ， 这 样 在 


后 面 就 可 以 自动 将 生成 的 RDD 隐 式 转换 成 SchemaRDD。 
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(3) 通过 定义 case class, HJ EA S] 489r: Schema, TE RDD 的 transformation 操作 过 程 中 
使 用 case class 可 以 通过 隐 式 转换 得 到 Person 实例 。 
(4) people. registerAsTable( " people" ) 是 把 people 注册 成 表 ， 然 后 就 可 以 在 sqlContext 下 
对 表 进 行 操作 了 。 > 
(5) sqlContext. sql 方法 就 是 对 表 进 行 操作 ， 最 后 调用 collect 方法 触发 作业 的 提交 ， 并 
将 sql 方法 的 结果 返回 到 driver, 
4. 代码 运行 情况 
下 面 我 们 用 spark - shell 来 运行 上 述 代 码 ， 并 查看 运行 情况 。 
(1) 启动 Spark Shell, 


root@SparkMaster:/# spark-shell 
Spark assembly has been built with Hive, including Datanucleus jars on classpath 
15/05/01 01:54:43 INFO spark.SecurityManager: Changing view acls to: root, 
15/95/81 81:54:43 INFO spark.SecurityManager: Changing modify acls to: root, 
15/05/01 01:54:43 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls 
disabled; users with view permissions: Set(root, ); users with modify permissions: Set(root, ) 
15/05/01 01:54:43 INFO spark.HttpServer: Starting HTTP Server 
15/05/81 01:54:43 INFO server.Server: jetty-8.y.z-SNAPSHOT 
15/05/01 91:54:44 INFO server.AbstractConnector: Started SocketConnector@0.0.9.9:41417 
15/05/01 01:54:44 INFO util.Utils: Successfully started service 'HTTP class server' on port 414 
17. 
Welcome to 
-- — i$ - 
Nae AE LOB. SAI 
Y HU o Nese fol EREN version 1.1.8 


Using Scala version 2.18.4 (Java HotSpot(TM) Client VM, Java 1.7.9 67) 


(2) 把 样 例 代码 复制 到 spark - shell 中 执行 ， 可 以 通过 调用 RDD 的 toDebugString 方法 来 
查看 各 个 操作 前 后 RDD 之 间 的 依赖 关系 。 


scala» val sqlContext-new org.apache.spark.sql.SQLContext(sc) 
sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@27546719 


scala» import sqlContext. 
‘import sqlContext. - 


scala» case class Person(name:String,age:Int) 
defined class Person 


scala» val people-sc.textFile("hdfs://hadoop1:8000/dataguru/week4/people.txt").map( .split(",")).map(p-»Person(p(0),p(1) 
.trim.toInt)) 
14/08/05 22:38:03 INFO storage.MemoryStore: ensureFreeSpace(139172) called with curMem=0, maxMem-308713881 

: Block broadcast © stored as values to memory (estimated size 135.9 KB, free 


- MappedRDD[3] at map at «console»:19 
scala» people.registerAsTable("people") 


scala» people.toDebugString 
14/08/05 22:39:00 INFO mapred.FileInputFormat: Total input paths to process : 1 
resi: String = 
MappedRDD[3] at map at <console>:19 (2 partitions) 
MappedRDD[2] at map at <console>:19 (2 partitions) 
MappedRDD[1] at textFile at <console>:19 (2 partitions) 
HadoopRDD[O] at textFile at «console»:19 (2 partitions) 


(3) 可 以 看 到 这 时 的 teenagers 已 经 是 一 个 SchemaRDD 了 。 


scala» val teenagers = sqlContext.sql("SELECT name FROM people WHERE age >= 13 AND age <= 19") 
:39 INFO analysis.Analyzer: Max iterations (2) reached for batch MultiInstanceRelations 
:39 INFO analysis.Analyzer: Max iterations (2) reached for batch CaseInsensitiveAttributeReferences 
:39 INFO sql.SQLContextSSanonS$1: Max iterations (2) reached for batch Add exchange 
:39 INFO sql.SQLContextSSanonS1: Max iterations (2) reached for batch Prepare Expressions 
: org.apache.spark.sql.SchemaRDD - 
chemaRDD[6] at RDD at SchemaRDD.scala:98 
= Query Plan == 


Project [name#0:0] 
Filter ((age#1:1 >= 13) && (age#1:1 <= 19)) 
ExistingRdd [name#0,age#1], MapPartitionsRDD[4] at mapPartitions at basicOperators.scala:174 


(4) 通过 collect 这 个 action 操作 ， 触 发 了 作业 的 提交 ， 并 将 sql 方法 的 结果 返回 到 driver, 
在 最 后 我 们 可 以 看 到 运行 结 


scala» teenagers.map(t => "Name: " + t(0)).collect().foreach(println) 
14/08/05 22:40:46 INFO spark.SparkContext: Starting job: collect at «console»:20 
22:40:46 INFO scheduler.DAGScheduler: Got job 6 (collect at <console>:20) with 2 output partitions (allowLocal= 


22:40:46 INFO scheduler.DAGScheduler: Final stage: Stage O(collect at <console>:20) 

22:40:46 INFO scheduler.DAGScheduler: Parents of final stage: List() 

22:40:46 INFO scheduler.DAGScheduler: Missing parents: List() 

22:40:46 INFO scheduler.DAGScheduler: Submitting Stage © (MappedRDD[9] at map at «console»:20), which has no mi 


:46 INFO scheduler.DAGScheduler: Submitting 2 missing tasks from Stage 0 (MappedRDD[9] at map at «console» 


:46 INFO scheduler.TaskSchedulerImpl: Adding task set 0.0 with 2 tasks 

:46 INFO scheduler.TaskSetManager: Starting task 0.0:0 as TID O on executor 1: hadoop2 (NODE LOCAL) 
:46 INFO scheduler.TaskSetManager: Serialized task 0.0:0 as 3542 bytes in 4 ms 

:49 INFO scheduler.TaskSetManager: Starting task 0.0:1 as TID 1 on executor 0: hadoop1 (ANY) 

:49 INFO scheduler.TaskSetManager: Serialized task 0.0:1 as 3542 bytes in 1 ms 

:52 INFO scheduler.TaskSetManager: Finished TID © in 5501 ms on hadoop2 (progress: 1/2) 

:52 INFO scheduler.DAGScheduler: Completed ResultTask(0, 0) 

:54 INFO scheduler.DAGScheduler: Completed ResultTask(0, 1) 

:54 INFO scheduler. TaskSetManager: Finished TID 1 in 4630 ms on hadoop1 (progress: 2/2) 

:54 INFO scheduler.DAGScheduler: Stage © (collect at <console>:20) finished in 7.871 s 

:54 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
:54 INFO spark.SparkContext: Job finished: collect at «console»:20, took 8.029620366 s 


(5) Spark SQL 还 为 Spark 应 用 开发 人 员 提 供 了 一 系列 的 DSL (领域 特定 语言 ) 。 由 于 它 
以 开发 人 员 熟 悉 的 SQL 语义 方式 展现 ， 提 高 了 开发 效率 。 下 面 我 们 简单 演示 一 下 它 的 使 用 ， 
在 spark - shell 交互 式 界面 输入 : val teenagers. dsl = people. where('age >= 10). where('age <= 
19). select (' name ) ,然后 输入 :teenagers_dsl. map (t =>" name;" +t(0).collect( ) . foreach 
( println) ) ， 然 后 Spark 系统 会 直接 执行 。 从 运行 结果 中 可 以 看 到 除了 运行 效率 的 差别 ， 运 
行 方式 上 和 前 面 SQLContext 提供 的 数据 查询 的 API 没什么 区 别 。 


scala» val teenagers dsl = people.where('age >= 10).where('age <= 19).select('name) 
14/08/05 22:42:58 INFO analysis.Analyzer: Max iterations (2) reached for batch MultiInstanceRelations 
14/08/05 22:42:58 INFO analysis.Analyzer: Max iterations (2) reached for batch CaseInsensitiveAttributeReferences 
14/08/05 22:42:58 INFO sql.SQLContextSSanonS1: Max iterations (2) reached for batch Add exchange 
14/08/05 22:42:58 INFO sql.SQLContextSSanonS1: Max iterations (2) reached for batch Prepare Expressions 
: org.apache.spark.sql.SchemaRDD - 


Project [name#2:0] I 
Filter ((age#3:1 >= 10) && (age#3:1 <= 19)) 
ExistingRdd [name#2,age#3], MapPartitionsRDD[10] at mapPartitions at basicOperators.scala:174 


scala» teenagers dsl.map(t => "Name: " + t(0)).collect().foreach(println) 

14/08/05 22:43:22 INFO spark.SparkContext: Starting job: collect at «console»:24 

14/08/05 22:43:22 INFO scheduler.DAGScheduler: Got job 1 (collect at «console»:24) with 2 output partitions (allowLocal- 
false) 

14/08/05 22:43:22 INFO scheduler.DAGScheduler: Final stage: Stage i(collect at «console»:24) 

14/08/05 22:43:22 INFO scheduler.DAGScheduler: Parents of final stage: List() 

14/08/05 22:43:22 INFO scheduler.DAGScheduler: Missing parents: List() 

14/08/05 22:43:22 INFO scheduler.DAGScheduler: Submitting Stage 1 (MappedRDD[15] at map at «console»:24), which has no m 
issing parents 

14/08/05 22:43:22 INFO scheduler.DAGScheduler: Submitting 2 missing tasks from Stage 1 (MappedRDD[15] at map at «console 
2:24) 

14/08/05 22:43:22 INFO scheduler.TaskSchedulerImpl: Adding task set 1.0 with 2 tasks 

14/08/05 22:43:22 INFO scheduler.TaskSetManager: Starting task 1.0:0 as TID 2 on executor 1: hadoop2 (NODE LOCAL) 
14/08/05 22:43:22 INFO scheduler.TaskSetManager: Serialized task 1.0:0 as 3596 bytes in 0 ms 

14/08/05 22:43:22 INFO scheduler.TaskSetManager: Starting task 1.0:1 as TID 3 on executor 1: hadoop2 (NODE LOCAL) 
14/08/05 22:43:22 INFO scheduler.TaskSetManager: Serialized task 1.0:1 as 3596 bytes in 1 ms 

14/08/05 22:43:22 INFO scheduler.DAGScheduler: Completed ResultTask(1, 0) I 

14/08/05 22:43:22 INFO scheduler.TaskSetManager: Finished TID 2 in 68 ms on hadoop2 (progress: 1/2) 

14/08/05 22:43:22 INFO scheduler.DAGScheduler: Completed ResultTask(1, 1) 

14/08/05 22:43:22 INFO scheduler.TaskSetManager: Finished TID 3 in 28 ms on hadoop2 (progress: 2/2) 

14/08/05 22:43:22 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 1.0, whose tasks have all completed, from pool 
14/08/05 22:43:22 INFO scheduler.DAGScheduler: Stage 1 (collect at «console»:24) finished in 0.095 s 

14/08/05 22:43:22 INFO spark.SparkContext: Job finished: collect at «console»:24, took 0.104469713 s 

Name: Justin 
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Parquet 文件 以 及 JSON 文件 操作 
1. Parquet 文件 读 取 和 保存 > 
Spark SQL 同样 支持 对 parquet 文件 的 读 取 和 保存 。parquet 文件 的 一 个 优势 是 它 天 生 保 

留 了 元 数据 (Schema) 信息 ， 在 读 取 的 时 候 不 需要 使 用 隐 式 转换 来 生成 SchemaRDD， 它 可 
以 直接 转换 成 SchemaRDD， 当 然 也 可 以 直接 把 SchemaRDD 以 parquet 文件 格式 直接 保存 到 外 
部 文件 存储 系统 中 去 ， 下 面 我 们 承接 上 一 市 的 运行 示例 来 读 取 和 保存 Parquet 文件 。 

下 面 的 操作 同样 在 spark - shell 交互 式 界面 中 运行 。 
(1) 首先 我 们 把 people. registerAsTable( " people" ) 操作 后 已 经 注册 成 表 的 SchemaRDD 保 


存 到 HDFS 的 data 目录 下 ， 这 里 的 SchemaRDD 指 的 还 是 people。 可 以 在 spark - shell 交互 式 
界面 中 使 用 以 下 命令 保存 文件 : 


people. saveAsParquetFile( " hdfs://SparkMaster:8000/ data// people. parquet" ) 


(2) 可 以 在 HDFS 的 WebUI 中 查看 保存 的 Parquet 文件 ， 如 图 6-10 所 示 。 


ay = a ne OOo 


Go back to DFS home 


图 6-10 保存 在 HDFS 上 的 Parquet 文件 


(3) 我 们 从 HDFS 中 读 取 Parquet XPF, F spark - shell 交互 式 界面 中 输入 恋 取 命令 ， 命 
令 如 下 : 
valparquetFile = sqlContext. parquetFile ( " hdfs ://SparkMaster :8000/data/ people. parquet" ) 


(4) 这 时 读 取 进 来 的 Parquet 文件 不 需要 使 用 case class 来 定义 表 结 构 ， 直 接 把 parquet- 
File 注册 成 表 。 


parquetFile. registerAsTable("parquetFile" ) 


(5) 使 用 “val teenagers = sqlContext. sql ( " SELECT name FROM parquetFile WHERE age 
>=13 AND age <=19" ) ”进行 查询 操作 ， 查 询 结果 如 下 。 


scala» val teenagers = sqlContext.sql("SELECT name FROM parquetFile WHERE age >= 13 AND age <= 19") 
22:47:12 INFO analysis.Analyzer: Max iterations (2) reached for batch MultilInstanceRelations 
22:47:12 INFO analysis.Analyzer: Max iterations (2) reached for batch CaseInsensitiveAttributeReferences 
22:47:12 INFO sql.SQLContextSSanonS1: Max iterations (2) reached for batch Add exchange 
22:47:12 INFO sql.SQLContextSSanonS1: Max iterations (2) reached for batch Prepare Expressions 
22:47:12 INFO storage.MemoryStore: ensureFreeSpace(181429) called with curMem-139172, maxMem-308713881 
22:47:12 INFO storage.MemoryStore: Block broadcast 1 stored as values to memory (estimated size 177.2 KB, free 


teenagers: org.apache.spark.sql.SchemaRDD - 
chemaRDD[22] at RDD at SchemaRDD.scala:98 
- Query Plan -- 
Project [name#8:0] 
Filter ((age#9:1 >= 13) && (age#9:1 <= 19)) 
ParquetTableScan [name#8,age#9], (ParquetRelation hdfs://hadoopi:8000/dataguru/week4/people.parquet), None 


©, 
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(6) 使 用 “teenagers. map(t=>"Name:" +t(0) ). collect( ). foreach(println)” 命 令 触 发 
查询 操作 ， 查 询 结 果 如 下 。 


:47: INFO spark.SparkContext: Starting job: collect at <console>:20 
:47: INFO scheduler.DAGScheduler: Got job 3 (collect at <console>:20) with 2 output partitions (allowLocal- 


:47: INFO scheduler.DAGScheduler: Final stage: Stage 3(collect at «console»:20) 
:47:26 INFO scheduler.DAGScheduler: Parents of final stage: List() 
:47:26 INFO scheduler.DAGScheduler: Missing parents: List() 
:47:26 INFO scheduler.DAGScheduler: Submitting Stage 3 (MappedRDD[27] at map at «console»:20), which has no m 
issing parents 
14/08/05 22:47:26 INFO scheduler.DAGScheduler: Submitting 2 missing tasks from Stage 3 (MappedRDD[27] at map at «console 
>:20) 
14/08/05 747: INFO scheduler.TaskSchedulerImpl: Adding task set 3.0 with 2 tasks 
14/08/05 :47:26 INFO scheduler.TaskSetManager: Starting task 3.0:0 as TID 6 on executor 0: hadoopi (NODE LOCAL) 
14/08/05 :47:26 INFO scheduler.TaskSetManager: Serialized task 3.0:0 as 3098 bytes in 0 ms 
INFO scheduler.TaskSetManager: Starting task 3.0:1 as TID 7 on executor 1: hadoop2 (NODE LOCAL) 
5 INFO scheduler.TaskSetManager: Serialized task 3.0:1 as 3098 bytes in 0 ms 
INFO scheduler.DAGScheduler: Completed ResultTask(3, 1) 
INFO scheduler.TaskSetManager: Finished TID 7 in 361 ms on hadoop2 (progress: 1/2) 
INFO scheduler.DAGScheduler: Completed ResultTask(3, 0) 
INFO scheduler.TaskSetManager: Finished TID 6 in 914 ms on hadoop1 (progress: 2/2) 
INFO scheduler.DAGScheduler: Stage 3 (collect at «console»:20) finished in 0.915 s 
INFO scheduler.TaskSchedulerImpl: Removed TaskSet 3.0, whose tasks have all completed, from pool 
INFO spark.SparkContext: Job finished: collect at «console»:20, took 0.933366367 s 


(7) 最 后 介绍 在 sqlContext 的 查询 中 , 还 可 以 将 来 H 不 同 数据 源 的 表 进 行 混合 查询 , EE 

如 将 来 自 文本 文件 的 数据 (对 应 people) 和 来 自 Parquet 文件 的 数据 (对 应 parquetFile) 3f 
行 混合 查询 ， 命 令 如 下 : 

valjointbls = sqlContext. sql( " SELECT people. name FROM people join parquetFile where people. name = 


parquetFile. name" ) 


jointbls. map(t =>" Name;" +t(0) ). collect( ). foreach ( println ) 


我 们 把 上 述 命令 复制 到 spark - shell 交互 式 终端 进行 执行 ， 下 面 可 以 查看 运行 结 


scala» val jointbls = sqlContext.sql("SELECT people.name FROM people join parquetFile where people.name-parquetFile.nama 


INFO analysis.Analyzer: Max iterations (2) reached for batch MultilInstanceRelations 
INFO analysis.Analyzer: Max iterations (2) reached for batch CaseInsensitiveAttributeReferences 
INFO sql.SQLContextSSanonS1: Max iterations (2) reached for batch Add exchange 
INFO sql.SQLContextSSanonS1: Max iterations (2) reached for batch Prepare Expressions 
INFO storage.MemoryStore: ensureFreeSpace(181389) called with curMem-320601, maxMem-308713881 
5 INFO storage.MemoryStore: Block broadcast 2 stored as values to memory (estimated size 177.1 KB, free 


: org.apache.spark.sql.SchemaRDD - 

SchemaRDD[28] at RDD at SchemaRDD.scala:98 
- Query Plan -- 
Project [name#0:0] 
HashJoin [name#0], [name#8], BuildRight 

Exchange (HashPartitioning [name#0:0], 150) 

Project [name#0:0] 

ExistingRdd [name#0,age#1], MapPartitionsRDD[4] at mapPartitions at basicOperators.scala:174 
Exchange (HashPartitioning [name#8:0], 150) 


scala» jointbls.map(t => "Name: " + t(0)).collect().foreach(println) 
14/08/05 22:50:15 INFO spark.SparkContext: Starting job: collect at «console»:20 
14/08/05 22:50:15 INFO input.FileInputFormat: Total input paths to process : 2 


2. JSON 文件 的 读 取 操 作 

Spark SQL 从 Spark 1. 1 版 本 开始 增加 了 对 JSON 文件 格式 的 支持 ， 并 且 在 Spark 1. 2 版 
本 中 进行 了 加 强 ， 它 的 目的 就 是 在 Spark 中 使 得 查询 和 创建 JSON 数据 变 得 非常 简单 。 随 着 
Web 和 手机 应 用 的 流行 ，JSON 格式 的 数据 已 经 是 Web Service API 之 间 通 信 以 及 数据 的 长 期 
保存 的 事实 上 的 标准 格式 了 。 但 是 使 用 现 有 的 工具 ， 用 户 常 常 需要 开发 出 复杂 的 程序 来 读 写 
分 析 系 统 中 的 ISON 数据 集 。 而 Spark SQL 中 对 JSON 数据 的 支持 极 大 地 简化 了 使 用 ISON 数 
据 的 终端 的 数据 加 载 与 存储 操作 。 
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Spark SQL 提供 了 内 置 的 语法 来 查询 这 些 JSON GE, JE A phh EL kete 
JSON 数据 的 模式 。Spark SQL 可 以 解析 出 ISON 数据 中 其 套 的 字段 ， 并 且 人 允许 用 户 直 接 访问 
这 些 字段 ， 而 不 需要 任何 显示 的 转换 操作 。 

在 编写 Spark SQL 应 用 程序 的 时 候 ， 对 于 ISON 文件 格式 的 数据 的 读 取 可 以 通过 SQL- > 
Context 提供 的 jsonRDD 方法 和 jsonFile 方法 ， 使 用 这 两 个 方法 ， 就 可 以 利用 提供 的 ISON 数 
据 集 来 创建 SchemaRDD 对 象 ， 并 且 将 SchemaRDD 注册 成 表 。 下 面 的 代码 就 是 通过 SQLCon- ————— 
text 的 jsonFile 方法 加 载 外 部 的 ISON 文件 目录 中 的 数据 ， 其 中 ISON 文件 的 每 一 行 是 一 个 
JSON 对 象 。 


// Create a SQLContext (sc is an existing SparkContext) 

val sqlContext = new org.apache.spark.sql.SQLContext(sc) 

// Suppose that you have a text file called people with the following content: 
// ("name":"Yin", "address":("city":"Columbus","state":"Ohio")] 

// ("name":"Michael", "address":("city":null, "state":"California"])] 

// Create a SchemaRDD for the JSON dataset. 

val people = sqlContext.jsonFile("[the path to file people]") 

// Register the created SchemaRDD as a temporary table. 
people.registerTempTable("people") 


而 对 于 SQLContext 的 jsonRDD 方法 ， 它 是 通过 从 现 有 的 RDD 加 载 数据 ， 需 要 注意 的 是 
RDD 中 的 每 个 元 素 包 含 一 个 JSON 对 象 的 字符 串 。 

下 面 演示 使 用 SQLContext 的 jsonFile 方法 来 读 取 数据 并 对 加 载 的 数据 进行 操作 。 

(1) 首先 使 用 “hadoop fs - copyFromLocal/root/ Downloads/people. json /data" 把 Mroot 
Downloads 目录 下 的 people. json 文件 复制 到 HDFS 的 data 目录 下 。people. json 文件 的 内 容 
如 下 : 


B people.json x 


{"name":"Yin", "address":{"city":"CoLumbus","state": "Ohio" }} 


("name":"Michael", "address":("city":null, "state": "California")]l 


(2) 查看 HDFS 中 上 传 的 文件 ， 如 图 6-11 所 示 。 


Browse Directory 


| ¿data | | | i | u l l | E l | co: | 
Permission Owner Group Size Replication Block Size Name 
drwxr-xr-x root supergroup 0B 0 0B Downloads 
-IW-r—r-- root supergroup 4.7 KB 2 128 MB README.md 
-IW-r-r-- root supergroup 211.05 KB 2 128 MB SogouQ.mini 
drwxr-xr-x root supergroup OB 0 0B graph 上 传 的 文件 
drwxr-xr-x root supergroup 0B 0 0B join 
-DW-r--r-- root supergroup 93 B 2 128 MB one.tsv 
-rw-F-F- root supergroup 131B 2 128 MB people.json 


图 6-11 上 传 到 HDFS 上 的 people. json 文件 
(3) 在 spark - shell 中 输入 以 下 代码 : 


val sqlContext = new org. apache. spark. sql. SQLContext( sc ) 
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val people = sqlContext. jsonFile( " /data/people. json" ) 

people. register TempTable( " people" ) 

val nameAndAddress = sqlContext. sql ( " SELECT name, address. city, address. state FROM people 
WHERE city LIKE‘ Co% °? "). map(t => "Name;" +t(0 ) +”,” +” City;” +t(1) ) 

nameAndAddress. collect. foreach( println ) 


(4) 运行 结果 如 下 : 
Name ; Yin, City; Columbus 


(5) 查询 的 结果 可 以 直接 使 用 ,或 者 是 被 其 他 的 Spark 子 框架 使 用 ， 比 如 Spark 的 MI- 
lib。 将 SchemaRDD 对 象 保存 成 JSON 文件 是 通过 调用 SchemaRDD 的 toJSON 方法 实现 的 ， 由 
于 SchemaRDD 可 以 通过 很 多 其 他 格式 的 数据 源 进行 创建 ， 比 如 Hive tables, Parquet 文件 、 
JDBC, Avro 文件 以 及 其 他 SchemaRDD 的 结果 ， 这 就 意味 着 用 户 可 以 很 方便 地 将 数据 写成 
JSON 格式 ， 而 不 需要 考虑 到 源 数据 集 的 来 源 。 

同时 ，JSON 数据 集 可 以 通过 Spark SQL 内 置 的 内 存 列 式 存储 格式 进行 存储 ， 也 可 以 存 
储 成 其 他 格式 ， 比 如 Parquet 或 者 Avro。 


订单 交易 数据 操作 的 主要 内 容 包 括 以 下 几 部 分 : 


e 订单 交易 数据 的 数据 库 以 及 表 的 构建 。 
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。 表 数据 的 常见 查询 操作 。 

在 这 里 我 们 通过 Spark Shell 进行 一 系列 的 订单 交易 数据 演示 。 下 面 的 代码 是 在 Spark 
Shell 的 环境 下 运行 的 。 

(1) 去 除 过 多 的 日 志 。 通 过 调用 Java 语言 中 的 Logger 的 两 个 getLogger ) 方 法 创建 两 个 
Logger 对 象 ， 然 后 调用 它 的 setLevel 方法 设置 日 志 消 息 输 出 的 级 别 分别 是 Level. WARN 和 
Level. OFF ， 在 各 目的 Logger 对 象 中 ， 低 于 设置 的 Logger 级 别 的 日 志 信 息 将 被 丢 奔 。 


scala > import org. apache. log4j. | Level , Logger | 

import org. apache. log4j. | Level , Logger } 

scala » Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 
scala » Logger. getLogger( " org. apache. spark. sql" ). setLevel( Level. WARN) 


(2) 初始 化 HiveContext。 在 这 里 需要 注意 两 点 : 首先 要 确认 现在 使 用 的 是 否 是 文 持 
Hive 的 Spark 版 本 ; 并 且 Hive 的 配置 文件 hive - site. xml 已 经 存放 到 Spark 的 $ HOME/conf 
Blok Ps 

使 用 下 面 代码 初始 化 HiveContext。 


val hiveContext = new org. apache. spark. sql. hive. HiveContext( sc ) 


(3) 创建 表 和 数据 库 。 在 Hive 中 我 们 定义 了 一 个 数据 库 saledata 和 三 个 表 tbIDate , 
tblStock 和 tblStockDetail。 
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1) Æ spark - shell 交互 界面 输入 命令 : hiveContext. hql( " CREATE DATABASE SALEDA- 
TA"), ， 创 建 数据 库 saledata。 


scala > hiveContext. hql( " CREATE DATABASE SALEDATA" ) 

15/04/30 07:33:33 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no > 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 07:33:33 INFO metastore ; Trying to connect to metastore with URI thrift: //cluster01 :9083 
15/04/30 07.33.33 INFO metastore: Connected to metastore. 

15/04/30 07:33:34 INFO SessionState; No Tez session required at this point. hive. execution. engine 
- mr. 

15/04/30 07:33:34 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 07 :33 :34 INFO ParseDriver; Parsing command; CREATE DATABASE SALEDATA 

15/04/30 07 :33 :34 INFO ParseDriver; Parse Completed 

15/04/30 07: 33: 35 INFO PerfLogger: < PERFLOG method = Driver. run. from = 
org. apache. hadoop. hive. ql. Driver > 

15/04/30 07 :33:37 INFO PerfLogger: </PERFLOG method = Driver. run start = 1430404415317 end = 
1430404417096 duration = 1779 from = org. apache. hadoop. hive. ql. Driver > 


res] : org. apache. spark. sql. DataFrame = | result; string | 


2) (E spark — shell 交互 界面 输入 命令 : hiveContext. hgl( "use SALEDATA" ) ， 使 用 数据 
库 saledata, 


scala > hiveContext. hql( "use SALEDATA" ) 

15/04/30 09:23:47 WARN HiveConf; DEPRECATED: Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 09:23:47 INFO metastore ; Trying to connect to metastore with URI thrift ;//cluster01 :9083 
15/04/30 09.23.47 INFO metastore: Connected to metastore. 

15/04/30 09:23:48 INFO SessionState; No Tez session required at this point. hive. execution. engine 
- mr. 

15/04/30 09:23:48 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 


15/04/30 09:23:48 INFO ParseDriver: Parsing command :use SALEDATA 

15/04/30 09:23:49 INFO ParseDriver; Parse Completed 

15/04/30 09. 23: 49 INFO PerfLogger: < PERFLOG method = Driver. run. from = 
org. apache. hadoop. hive. ql. Driver > 

15/04/30 09:23:49 INFO PerfLogger: </PERFLOG method = Driver. run start = 1430411029392 end = 
1430411029955 duration = 563 from = org. apache. hadoop. hive. ql. Driver > 


res2 : org. apache. spark. sql. DataFrame = [ result; string | 


E. 
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3) 在 spark - shell 交互 界面 输入 命令 : hiveContext. hql(" CREATE TABLE tblDate( dateld 
string ,theyearmonth string, theyear string, themonth string, thedate string, theweek string, theweeks 
string, thequot string, thetenday string, thehalfmonth string) ROW FORMAT DELIMITED FIELDS 
TERMINATED BY ','LINES TERMINATED BY'\n'" )， 创 建 表 tbIDate， 这 个 表 定 义 了 日 期 的 
分 类 ， 包 括 : 日 期 、 年 月 、 年 、 月 、 日 、 周 几 、 第 几 周 、 季 度 、 旬 、 半 月 。 


scala > hiveContext. hql("CREATE TABLE tblDate( dateld string ,theyearmonth string ,theyear string ,the- 
month string, thedate string , theweek string, theweeks string, thequot string, thetenday string, thehalfmonth 
string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ','LINES TERMINATED BY'\n'" ) 
15/04/30 07:42:27 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 07:42:27 INFO ParseDriver; Parsing command: CREATE TABLE tblDate( dateld 
string , theyearmonth string, theyear string , themonth string, thedate string, theweek string, 

theweeks string, thequot string, thetenday string, thehalfmonth string) ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','LINES TERMINATED BY " 

15/04/30 07 :42 :27 INFO ParseDriver; Parse Completed 

15/04/30 07: 42; 27 INFO  PerfLogget: < PERFLOG method = Driver run from = 
org. apache. hadoop. hive. ql. Driver > 

15/04/30 07 :42:28 INFO Driver:OK 

15/04/30 07: 42; 28 INFO PerfLogger: < PERFLOG method = releaseLocks from = 
org. apache. hadoop. hive. ql. Driver > 

15/04/30 07 :42 :28 INFO PerfLogger: </PERFLOG method = releaseLocks start = 1430404948128 end 
= 1430404948128 duration =0 from = org. apache. hadoop. hive. ql. Driver > 

15/04/30 07:42:28 INFO PerfLogger: «/PERFLOG method = Driver. run start = 1430404947679 end = 
1430404948128 duration = 449 from = org. apache. hadoop. hive. ql. Driver > 


res4 : org. apache. spark. sql. DataFrame = | result; string | 


4) 创建 表 tblStock。 这 个 表 里 定 义 了 订单 表 涉 ， 包 括 订单 号 、 交 易 位 置 、 交 易 日 期 。 


scala > hiveContext. hql( " CREATE TABLE tblStock ( ordernumber string, locationid string, datelD string) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY 'in'") 

15/04/30 07:45:02 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 


15/04/30 07:45:05 INFO PerfLogger: </PERFLOG method = Driver. run start = 1430405102905 end = 
1430405105392 duration = 2487 from = org. apache. hadoop. hive. ql. Driver > 


res5 : org. apache. spark. sql. DataFrame = | result; string | 


5) 创建 表 tblStockDetail。 这 个 表 定 义 了 订单 明细 ， 包 括 订单 号 (ordernumber)、 行 号 
(rownum), n (itemid)、 数 量 (qty), SA (price) 、 销 售 额 (amount) 。 


scala > hiveContext. hql ( " CREATE TABLE tblStockDetail ( ordernumber STRING, rownum int, itemid 
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string, qty int „price int, amount int) ROW FORMAT DELIMITED FIELDS TERMINATED BY ','LINES 
TERMINATED BY '\n'" ) 

15/04/30 07:47:12 WARN HiveConf; DEPRECATED ; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to > 
a remote metastore. 

15/04/30 07 :47 :12 INFO ParseDriver ; Parsing command; CREATE TABLE tblStock Detail ( ordernumber 
STRING ,rownum int, itemid string, qty int , price int, amount int) ROW FORMAT DELIMITED FIELDS 
TERMINATED BY ','LINES TERMINATED BY ' 

15/04/30 07 :47 :12 INFO ParseDriver; Parse Completed 

15/04/30 07: 47; 12 INFO PerfLogger; <  PERFLOG method = Driver. run. from = 
org. apache. hadoop. hive. ql. Driver > 

15/04/30 07: 47: 12 INFO PerfLogger: < PERFLOG method = TimeToSubmit from = 
org. apache. hadoop. hive. ql. Driver > 

15/04/30 07 :47:12 INFO Driver: Concurrency mode is disabled, not creating a lock manager 

15/04/30 07: 47: 12 INFO  PerfLogger: <  PERFLOG method = compile from = 
org. apache. hadoop. hive. ql. Driver > 

15/04/30 07: 47: 12 INFO  PerfLogger: < PERFLOG method = parse from = 
org. apache. hadoop. hive. ql. Driver > 

15/04/30 07 :47 :12 INFO ParseDriver ; Parsing command; CREATE TABLE tblStock Detail ( ordernumber 
STRING, rownum int, itemid string, qty int , price int, amount int) ROW FORMAT DELIMITED FIELDS 
TERMINATED BY ','LINES TERMINATED BY ' ' 

15/04/30 07 :47:12 INFO ParseDriver; Parse Completed 

15/04/30 07:47:12 INFO PerfLogger: «/PERFLOG method = parse start = 1430405232220 end = 
1430405232220 duration =0 from = org. apache. hadoop. hive. ql. Driver > 

15/04/30 07: 47; 12 INFO PerfLogger: < PERFLOG method = semanticAnalyze from = 
org. apache. hadoop. hive. ql. Driver > 

15/04/30 07 :47 :12 INFO SemanticAnalyzer ; Starting Semantic Analysis 

15/04/30 07 :47 :12 INFO SemanticAnalyzer; Creating table tblStockDetail position = 13 

15/04/30 07 :47:12 INFO Driver:Semantic Analysis Completed 

15/04/30 07 :47 :12 INFO PerfLogger: «/PERFLOG method = Driver. run start = 1430405232219 end = 
1430405232291 duration =72 from = org. apache. hadoop. hive. ql. Driver > 


res7 : org. apache. spark. sql. DataFrame = | result; string | 


(4) Jill ZX qryTheDate. txt, qryStockDetail. txt, qryStock. txt 三 个 文件 ， 分 别 生 成 三 个 表 
tblDate tblStockDetail, tblStock 的 数据 。 


hiveContext. hql ( " LOAD DATA LOCAL INPATH '/home/jack/cluster/data/qryTheDate. txt' OVER- 
WRITE INTO TABLE tblDate" ) 

hiveContext. hql( " LOAD DATA LOCAL INPATH '/home/jack/cluster/ data/ qryStockDetail. txt' OVER- 
WRITE INTO TABLE tblStockDetail" ) 

hiveContext. hdl ( " LOAD DATA LOCAL INPATH '/home/jack/cluster/ data/ qryStock. txt' INTO O- 
VERWRITE TABLE tblStock" ) 
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其 中 qryTheDate. txt, qryStockDetail. txt, qryStock. txt 三 个 文件 的 表 的 数据 ， 笔 者 提 
供 了 下 载 链 接 ， 可 以 通过 百度 网 盘 下 载 使 用 : http://pan. baidu. com/s/1dDOJCpN ; 

(5) FBR Aare TE: 当 加 载 数据 时 ， 可 以 通过 关键 字 OVERWRITE INTO 实现 覆盖 
表 的 原 有 数据 的 目的 。 


hiveContext. hql ( " LOAD DATA LOCAL INPATH '/home/jack/cluster/data/qryTheDate. txt' OVER- 
WRITE INTO TABLE tblDate" ) 

15/04/30 08:44:52 INFO PerfLogger: «/PERFLOG method = runTasks start = 1430408645258 end = 
1430408692675 duration 2 47417 from = org. apache. hadoop. hive. ql. Driver > 

15/04/30 08:44:52 INFO PerfLogger: «/PERFLOG method = Driver. execute start = 1430408645243 
end = 1430408692676 duration = 47433 from = org. apache. hadoop. hive. ql. Driver > 

15/04/30 08:44:52 INFO Driver: OK 

15/04/30 08: 44: 52 INFO PerfLogger: < PERFLOG method = releaseLocks from = 
org. apache. hadoop. hive. ql. Driver > 

15/04/30 08 :44:52 INFO PerfLogger: </PERFLOG method = releaseLocks start = 1430408692676 end 
= 1430408692676 duration =0 from = org. apache. hadoop. hive. ql. Driver > 

15/04/30 08:44:52 INFO PerfLogger: </PERFLOG method = Driver. run start = 1430408644419 end 
= 1430408692676 duration = 48257 from = org. apache. hadoop. hive. ql. Driver > 


res2 : org. apache. spark. sql. DataFrame = [ result ; string | 


(6) 表 数 据 的 查询 操作 。 
1) 查询 表 tblStock 的 数据 量 。 


scala > hiveContext. hql( " select * from tblStock" ). count 

15/04/30 10:12:12 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 10:12:12 INFO ParseDriver ; Parsing command: select * from tblstock 

15/04/30 10:12:12 INFO ParseDriver; Parse Completed 

15/04/30 10:12:13 INFO FileInputFormat ; Total input paths to process ; 1 

res24 : Long 2 21154 


由 以 上 运行 结果 可 知 ， 表 tblStock 一 共有 21154 条 数据 。 
2) 查询 表 tblStockDetail 的 数据 量 。 


scala > hiveContext. hql ( " select * from tblStockDetail" ). count 

15/04/30 10:12:22 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 10:12:22 INFO ParseDriver ; Parsing command: select * from tblstockdetail 

15/04/30 10:12:22 INFO ParseDriver; Parse Completed 

15/04/30 10:12:22 INFO FileInputFormat ; Total input paths to process ; 1 

res25 ; Long = 287950 


由 以 上 运行 结果 可 知 ， 表 tblStock 一 共有 287950 条 数据 。 
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3) 查询 表 tblStockDate 的 数据 量 。 


scala > hiveContext. hql ( " select * from tblDate" ). count 

15/04/30 10:12:30 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 10:12:30 INFO ParseDriver ; Parsing command; select * from tbldate 

15/04/30 10:12:30 INFO ParseDriver; Parse Completed 

15/04/30 10:12:30 INFO FileInputFormat : Total input paths to process :1 

res26 ; Long = 4383 


由 以 上 运行 结果 可 知 ， 表 tblStockDate 一 共有 4383 条 数据 。 

(7) 复杂 查询 语句 操作 。 

1) Æ tblStock MÆ tblStockDetail 联接 后 ， 查 询 所 有 订单 的 总 销售 额 。 在 spark - shell 交 
互 界面 输入 : hiveContext. hql(" select sum( tblStockDetail. amount ) from tblStock join tblStockDe- 
tail on tblStock. ordernumber = tblStockDetail. ordernumber" ). show 命令 ， 完 成 查询 。 


scala > hiveContext. hql ( " select sum ( tblStockDetail. amount ) from tblStock join tblStockDetail on 
tblStock. ordernumber = tblStockDetail. ordernumber" ). show 

15/04/30 10:15:24 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 10:15:24 INFO ParseDriver; Parsing command; select sum ( tblStockDetail. amount ) from 
tblStock join tblStockDetail on tblStock. ordernumber = tblStockDetail. ordernumber 

15/04/30 10:15:24 INFO ParseDriver; Parse Completed 

15/04/30 10:15:24 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 


a remote metastore. 


68100782 


由 上 面 的 运行 结果 可 知 ， 表 tblStock 和 表 tblStockDetail 联接 后 ， 所 有 订单 的 总 销售 额 结 
果 为 : 68100782 元 。 


2) 表 tblStock 和 表 tblStockDetail 以 别名 的 方式 联接 后 ， 查 询 所 有 订单 的 总 销售 额 。 


scala > hiveContext. hql( " select sum( b. amount ) from tblStock a join tblStockDetail b on a. ordernumber 


- b. ordernumber" ). show 

15/04/30 10:15:36 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 10:15:36 INFO ParseDriver; Parsing command; select sum ( b. amount ) from tblStock a join 
tblStockDetail b on a. ordernumber = b. ordernumber 

15/04/30 10:15:36 INFO ParseDriver ; Parse Completed 

15/04/30 10:15:36 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 


longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
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a remote metastore. 

15/04/30 10:15:36 INFO FileInputFormat:Total input paths to process:1 
15/04/30 10:15:36 INFO FileInputFormat ; Total input paths to process ; 1 
_c0 

68100782 


从 上 面 的 运行 结果 可 以 看 到 ， 即 使 表 tblStock 和 表 tblStockDetail 分 别 以 别名 a RI 的 方 
式 进 行 联接 ， 最 终 查 询 出 来 的 所 有 订单 的 总 销售 额 仍 然 是 68100782 元 。 
3) tblStock, tblStockDetail 和 tbldate 三 个 表 联 接 后 ， 查 询 所 有 订单 的 总 销售 额 。 


scala > hiveContext. hql ( " select sum ( tblStockDetail. amount ) from tblStock join tblStockDetail on 
tblStock. ordernumber =  tblStockDetail. ordernumber join  tbldate on tblstock. dateid = 
tbldate. dateid" ). show 

15/04/30 10:17:14 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 10:17:14 INFO ParseDriver; Parsing command; select sum ( tblStockDetail. amount ) from 
tblStock join tblStockDetail on tblStock. ordernumber = tblStockDetail. ordernumber join tbldate on 
tblstock. dateid = tbldate. dateid 

15/04/30 10:17:14 INFO ParseDriver; Parse Completed 

15/04/3010:17:14 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for 


c0 
68099079 


由 上 面 的 运行 结果 可 知 ，tblStock 、tblStockDetail 和 tbldate 三 个 表 联 接 后 ， 所 有 订单 的 
总 销售 额 是 68099079 元 。 
4) tblStock tblStockDetail 和 tbldate 三 个 表 以 别名 的 方式 联接 后 ， 查 询 所 有 订单 的 总 销 


售 额 。 


scala > hiveContext. hql( " select sum( b. amount) from tblStock a join tblStockDetail b on a. ordernumber 
- b. ordernumber join tbldate c on a. dateid = c. dateid" ). show 

15/04/30 10:17:34 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 10:17:34 INFO ParseDriver; Parsing command; select sum ( b. amount ) from tblStock a join 
tblStockDetail b on a. ordernumber = b. ordernumber join tbldate c on a. dateid = c. dateid 

15/04/30 10:17:34 INFO ParseDriver; Parse Completed 

15/04/30 10:17:34 WARN HiveConf; DEPRECATED: Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 10:17:34 INFO FileInputFormat ; Total input paths to process :1 

15/04/30 10:17:34 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
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longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 

a remote metastore. 

15/04/30 10:17:34 INFO FileInputFormat : Total input paths to process ; 1 

15/04/30 10:17:35 INFO FileInputFormat : Total input paths to process :1 > 
cO 


68099079 


从 上 面 的 运行 结果 可 以 看 到 ， 即 使 tblStock tblStockDetail 和 tbldate 三 个 表 以 别名 的 方 
式 联接 后 ， 最 终 查 询 出 来 的 所 有 订单 的 总 销售 额 仍 然 是 68099079 元 。 
5) 查询 所 有 订单 中 每 年 的 销售 单数 和 销售 总 额 。 


scala > hiveContext. hql( " select c. theyear ,count( distinct a. ordernumber) ,sum( b. amount ) from tblStock 


a join tblStockDetail b on a. ordernumber = b. ordernumber join tbldate c on a. dateid = c. dateid group by 
c. theyear order by c. theyear" ). show 

15/04/30 10:19:41 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

theyear cl | c2 

2004 1094 3265696 

2005 3828 13247234 

2006 3772 13670416 

2007 4885 16711974 

2008 4861 14670698 

2009 2619 6322137 

2010 94 210924 


由 上 面 的 运行 结果 可 知 ，tblStock tblStockDetail 和 tbldate 三 个 表 联 接 后 ， 运 行 结 
2004 ~ 2010 年 所 有 订单 中 每 年 的 销售 单数 和 销售 总 额 。 比 如 ，2004 年 每 年 销售 单数 
1094， 销 售 总 额 是 3265696 元 。 

6) 查询 tblStock, tblStockDetail 和 tbldate 三 个 表 联 接 后 每 年 每 种 货品 的 销售 金额 。 


H 
AE 

H 
AE 


scala > hiveContext. hql( " select c. theyear, b. itemid ,sum( b. amount) as sumofamount from tblStock a join 
tblStockDetail b on a. ordernumber = b. ordernumber join tbldate c on a. dateid = c. dateid group by 
c. theyear,b. itemid" ). show 

15/04/30 10:19:55 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 10:19:55 INFO ParseDriver; Parsing command; select c. theyear , b. itemid , sum( b. amount ) as 
sumofamount from tblStock a join tblStockDetail b on a. ordernumber = b. ordernumber join tbldate c on 
a. dateid = c. dateid group by c. theyear, b. itemid 

15/04/30 10:19:55 INFO ParseDriver; Parse Completed 

15/04/30 10:19:56 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 


longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
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a remote metastore. 


15/04/30 10:19:56 INFO FileInputFormat : Total input paths to process :1 


theyear itemid sumofamount 
2007 YA214367230101 11143 
2009 E2126125020101 240 
2006 C7124158112301 514 
2004 QY124131340202 1131 
2007 AK215387890201 19288 
2009 KM129161513001 1076 
2008 E2527265060102 1382 
2007 77127318180106 10188 
2006 YA514265590101 1294 
2009 LD129111019906 807 
2008 YL228301320106 4232 
2008 SF125335214402 36663 
2004 6A424416880201 5031 
2005 MH524230420201 1560 
2008 04126302970102 826 
2004 E8324431570106 1435 
2006 KM624110020102 474 
2007 30125139840402 480 
2007 ja) 14266290101 169 
2005 01225304823901 1316 


由 上 面 的 运行 状况 可 知 ，tblStock tblStockDetail 和 thldate 三 个 表 联 接 后 ， 运 行 结果 是 
2004 ~ 2010 年 每 年 每 种 货品 的 销售 金额 。 比 如 2007 年 贷 品 YA214367230101 的 销售 金融 是 
11143 元 。 

7) 查询 tblStock 、tblStockDetail 和 tbldate 三 个 表 联 接 后 每 年 单 品 的 销售 的 最 大 金额 。 同 
样 使 用 HiveContext 对 象 的 hql 方法 进行 查询 操作 ， 一 个 SQL 语句 的 字符 串 作 为 hql 方法 的 参 
数 来 实现 每 年 单 品 销售 最 大 金额 的 查询 。 


scala > hiveContext. hql( " select d. theyear, max( d. sumofamount ) as maxofamount from( select c. theyear， 


b. itemid , sum ( b. amount) as sumofamount from tblStock a join tblStockDetail b on a. ordernumber = 
b. ordernumber join tbldate c on a. dateid = c. dateid group by c. theyear, b. itemid ) d group by 
d. theyear" ). collect( ). foreach( println ) 

15/05/01 07:37:42 WARN HiveConf; DEPRECATED: Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/05/01 07:37:42 INFO ParseDriver; Parsing command; select d. theyear, max ( d. sumofamount ) as 
maxofamount from ( select c. theyear, b. itemid, sum ( b. amount ) as sumofamount from tblStock a join 
tblStockDetail b on a. ordernumber = b. ordernumber join tbldate c on a. dateid = c. dateid group by 


c. theyear,b. itemid) d group by d. theyear 
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15/05/01 07:37:42 INFO ParseDriver; Parse Completed 
15/05/01 07:37:42 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 


longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 


a remote metastore. > 
15/05/01 07:37:42 INFO FileInputFormat; Total input paths to process ;1 

15/05/01 07:37:42 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/05/01 07:37:42 INFO FileInputFormat; Total input paths to process ;1 

15/05/01 07:37:43 INFO FileInputFormat; Total input paths to process ;1 

| 2010 ,4494 | 

| 2004 ,53374 | 

| 2005 ,56569 | 

| 2006 , 113684 | 

| 2007 , 70226 | 

| 2008 ,97981 | 

| 2009 ,30029 | 


由 上 面 的 运行 状况 可 知 ，tblStock 、tblStockDetail 和 tbldate 三 个 表 联 接 后 ， 最 终 显示 的 
2004 ~ 2010 年 每 年 单 品 销售 的 最 大 人 金额。 例如 2010 年 单 品 的 销售 最 大 金额 是 4494 元 。 

8) 查询 所 有 订单 中 每 年 最 畅销 的 货品 : 每 年 每 种 货品 的 销售 金额 和 每 年 单 品 销售 的 最 
大 金额 相符 ， 就 是 所 有 订单 中 每 年 最 畅销 的 货品 。 由 于 SQL 语句 是 MySQL 的 基础 知识 ， 这 
里 我 们 不 做 具体 的 介绍 。 


scala > hiveContext. hql ( " select distinct e. theyear, e. itemid , f. maxofamount from ( select c. theyear, 
b. itemid , sum ( b. amount) as sumofamount from tblStock a join tblStockDetail b on a. ordernumber = 
b. ordernumber join tbldate c on a. dateid = c. dateid group by c. theyear, b. itemid ) e join ( select 
d. theyear, max( d. sumofamount ) as maxofamount from( select c. theyear , b. itemid , sum( b. amount) as su- 
mofamount from tblStock a join tblStockDetail b on a. ordernumber = b. ordernumber join tbldate c on 
a. dateid = c. dateid group by c. theyear, b. itemid) d group by d. theyear) f on( e. theyear = f. theyear and 
e. sumofamount = f. maxofamount ) order by e. theyear" ). show 

15/04/30 10:20:23 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 10:20:23 INFO FileInputFormat ; Total input paths to process:1 

15/04/30 10:20:23 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 
a remote metastore. 

15/04/30 10:20:23 INFO FileInputFormat ; Total input paths to process; 1 

15/04/30 10:20:23 WARN HiveConf; DEPRECATED; Configuration property hive. metastore. local no 
longer has any effect. Make sure to provide a valid value for hive. metastore. uris if you are connecting to 


a remote metastore. 
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15/04/30 10:20:23 INFO FileInputFormat; Total input paths to process:1 
15/04/30 10:20:25 INFO FileInputFormat ; Total input paths to process:1 
15/04/30 10:20:25 INFO FileInputFormat ; Total input paths to process:1 
theyear itemid maxofamount 

2004 JY424420810101 53374 

2005 24124118880102 56569 

2006 JY425468460101 113684 

2007 JY425468460101 70226 

2008 E2628204040101 97981 

2009 YL327439080102 30029 

2010 SQ429425090101 4494 


由 上 面 的 运行 状况 可 知 ，tblStock tblStockDetail 和 tbldate 三 个 表 联 接 后 ， 最 终 显 示 的 
2004 ~ 2010 年 所 有 订单 中 每 年 最 畅销 的 货品 。 例 如 2004 年 订单 JY424420810101 为 最 畅销 货 
品 ， 销 售 额 是 53374 元 。 

至 此 ， 使 用 hiveql 语句 对 订单 交易 数据 的 操作 进行 完毕 ， 这 个 案例 是 Spark SQL 在 生产 


环境 中 一 个 很 有 代表 性 的 案例 ， 望 大 家 仔细 揣摩 ， 好 好 研究 实践 一 下 。 


随 着 信息 技术 的 快速 发 展 ， 特 别 是 信息 获取 技术 、 互 联网 、 物 联网 、 社 交 网 络 等 技术 的 
突 飞 独 进 ， 引 发 了 数据 规模 的 爆炸 式 增长 ， 智 意 城 市 和 智 意 交通 的 概念 也 越 来 越 受 到 人 们 的 
重视 。 通 过 分 析 GPS 定位 信息 、3G 通信 信息 、GIS 地 理 信息 等 数据 ， 我 们 可 以 准确 预测 群 
体 出 行 行为 ， 合 理 规划 交通 路 线 ， 为 改善 城市 交通 提供 有 利 的 保证 。 同 时 ， 我 们 也 可 以 利用 
交通 数据 进行 商业 性 的 分 析 ， 比 如 商 圈 分 析 、 轨 迹 分 析 等 。 

下 面 的 这 个 实例 ， 是 基于 用 户 乘坐 出 租车 的 交易 信息 和 出 租车 的 GPS 轨迹 信息 来 分 析 
乘客 的 下 车 地 点 。 出 租车 的 GPS 信息 包括 以 下 内 容 : 出 租车 车 牌号 (carld)， 经 度 (longi- 
tude), “if (latitude) ， 时 间 (time) ， 时 间 惟 (timestamp)。 用 户 交 易 信息 的 内 容 是 出 租车 
车 牌号 (carld)， 下 车 时 间 (downtime), F 4 AY la] 4% (downtimestamp) ， 交 易 里 程 ( mile- 
age) ， 交 易 金额 (money) 。 记 录 和 车 辆 GPS 的 时 间 跟 用 户 交 易 数 据 的 时 间 是 不 一 样 的 ， 如 何 
用 SparkSQL 计算 出 用 户 下 车 时 间 最 近 的 GPS 时 间 是 本 案例 的 重点 。 

以 下 为 本 例 的 源 代码 及 分 析 。 

(1) 首先 获取 用 户 下 车 时 间 的 后 150s 内 上 传 的 GPS 轨迹 信息 ， 找 出 与 下 车 时 间 间 隅 最 
小 的 时 间 和 正确 的 GPS 轨迹 信息 。 核 心 代码 如 下 所 示 。 


val join, sqll =" select g. carld, g. longitude, g. latitude, g. time, g. timestamp, t. downtime," + 


t. downtimestamp," +" t. mileage, t. money from gps g inner join trans t on g. carld = t. carld and 
g. timestamp > t. downtimestamp and g. timestamp < t. downtimestamp + 150" 


val join, 1 min, hou = sqlContext. sql( join, sqll ). registerTempTable( " join, 1 min, hou" ) 


val sql. mintime = " select a. carld ,a. downtime , min( a. timestamp) as timestamp 
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from join. 1 min, hou a group by a. carld , à. downtime" 
val mintime, T = sqlContext. sql( sql. mintime). registerTempTable( " mintime T" ) 


val join, sql1, min = " select a. carld , a. longitude, a. latitude , a. time, a. timestamp , a. downtime e 
,a. downtimestamp , a. mileage, a. money from join, 1 min, hou a 


inner join mintime, T b on a. carld =b. carId and a. timestamp = b. timestamp" 


val hou, min = sqlContext. sql( join sqll. min). registerTempTable( " hou, min" ) 


其 中 , “join_sqll ”用 于 找 出 具有 相同 carld 的 、 距 下 车 时 间 150 s 后 的 所 有 记录 ， 并 且 
把 处 理 结果 保存 到 表 " join_lmin_hou" 中 ;" sql. mintime" 是 从 这 些 记 录 里 面 找 出 距离 下 车 时 间 
最 小 间隔 的 时 间 ， 并 且 把 结果 保存 在 " mintime_T" 中 ， 根 据 最 近 时 间 和 车 牌号 找 出 最 接近 下 
车 时 间 的 GPS 信息 。 

(2) 然后 用 同样 的 方法 获取 用 户 下 车 前 150s 内 上 传 的 GPS 轨迹 信息 中 最 靠近 下 车 时 间 
的 GPS 表 中 的 对 应 时 间 和 信息 。 核 心 代码 如 下 所 示 。 


val join, sql2 = " select g. carld , g. longitude, g. latitude ,g. time, g. timestamp ,t. downtime, 
t. downtimestamp , t. mileage,t. money from gps g inner join trans t on g. carld = t. carld and 


g. timestamp « t. downtimestamp and g. timestamp > t. downtimestamp — 150" 
val join, 1 min, qian = sqlContext. sql( join, sql2). registerTempTable( " join, 1 min, qian" ) 


val sql. maxtime =" select a. carld , a. downtime , max ( a. timestamp ) as timestamp from join. 1 min, qian 


a group by a. carld,a. downtime" 
val maxtime, T = sqlContext. sql( sql. maxtime). registerTempTable( " maxtime, T" ) 


val join, sql2. max =" select a. carld , a. longitude , a. latitude, a. time , a. timestamp, 
a. downtime , a. downtimestamp , a. mileage , a. money from join. 1 min qian a inner join maxtime T b 


on a. carld =b. carld and a. timestamp = b. timestamp" 


val hou, max = sqlContext. sql( join. sql2. max). registerTempTable( " qian, max" ) 


(3) 接 下 来 我 们 将 距离 下 车 时 间 前 最 近 的 时 间 表 (qian_max) AEE Bj P ZEE Ta) ea oc ir 
时 间 表 (hou min) 进行 union 操作 ， 并 把 结果 保存 在 表 " qianhou" 中 ， 然 后 通过 求 最 小 时 间 
22 (timediff) 找 出 真正 最 近 的 时 间 以 及 对 应 的 GPS 信息 ， 这 就 是 我 们 要 找 的 最 接近 的 下 车 
时 间 的 GPS。 代 码 如 下 所 示 。 


sqlContext. sql( " select * from hou, min union select * from qian max") 


. registerTempTable( " qianhou" ) 


sqlContext. sql( " select * ,abs(a. downtimestamp — a. timestamp) as timediff from qianhou a" ) 


. registerTempTable( " qianhoutimediff" ) 


p 
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sqlContext. sql(" select a. carld , a. downtime , min( a. timediff) as timediff from qianhoutimediff a 


group by a. carld ,a. downtime" ). registerTempTable ( " mintimediff" ) 


val result = sqlContext. sql( " select distinct 
a. carld , a. longitude, a. latitude , a. time , à. downtime, a. mileage ,a. money, a. timediff from 


qianhoutimediff a join mintimediff b on a. carld = b. carld and a. downtime = b. downtime" ) 


result. rdd. saveAsTextFile( resulturl ) 


(4) 最 后 我 们 把 结果 保存 在 文件 中 。 
下 面 是 该 案例 的 完整 代码 。 


import java. text. SimpleDateFormat 
import org. apache. spark. SparkContext 
import areaanalysis. compute. | PretreatData | 
import org. apache. spark. rdd. RDD 
case class GPS( carld : String, longitude ; String, latitude : String, time ; String, timestamp : Long ) 
case class Trans( carld : String , downtime : String , downtimestamp ; Long , mileage ; Double , money ; Double) 
object AreaTraffic | 
def main( args: Array[ String ] ) | 

val sc 2 new SparkContext( ) 

val sqlContext = new org. apache. spark. sql. SQLContext( sc ) 

// 这 个 包 用 于 将 RDD 隐 式 转换 为 DataFrame 

import sqlContext. implicits. _ 


// 数 据 输入 

val gps = sc. textFile( " /data/traffic/taxi/original, data/gps/GPS. 2014 05. 25" ). distinct( ) 

// 出 租车 gps 数据 

val trans = sc. textFile( "/data/ traffic/ taxi/ original_data/trans/ TRANS 2014 05. 25" ). distinct( ) 
// 用 户 交 易 数 据 

val time = "2014 -05 -25" // 要 计算 的 时 间 

val resulturl = " /result/4" // TERRE TS 

// 数 据 预 处 理 


//PretreatData 是 对 原始 数据 的 预 处 理 ,得 到 一 条 GPS 数据 ,返回 格式 为 gps. set: RDD[ String ] 
val gps set = new PretreatData( gps,trans, time). gps run 


val trans, set 2 new PretreatData( gps,trans, time). trans run 


/ / WIR] CA EST Th] ER 
def StringToLong( time; String) : Long = | 
val formatter = new SimpleDateFormat( " yyyy - MM -dd HH:mm:ss" ) 
(formatter. parse( time). getTime — formatter. parse( " 2014 —01 —01 00:00:00" ). getTime)/1000 
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// 将 gps 数据 和 trans 数据 注册 成 表 

val gps T = gps set. map(. . split(" ,")). map(g => GPS(g(0),g(1),g(2) ,g(3) , StringToLong 
(g(3))) ). toDF( ) gps. T. registerTempTable( " gps" ) 

val trans T = trans set. map(_. split(" ," ) ). map(t => Trans(t(0) ,t(2) ,StringToLong(t(2) ) ,t(4). 
toDouble/1000 ,t(6). toDouble/100) ). toDF( ) © 

trans, T. registerTempTable( " trans" ) 


// 取 下 车 时 间 后 150 s 内 上 传 的 gbs, 找 出 最 靠近 下 车 时 间 的 对 应 时 间 和 gps 
val join_sqll = " select g. carld ,g. longitude, g. latitude, g. time,g. timestamp ,t. downtime," + 
"t. downtimestamp," +"t. mileage,t. money from gps g 
inner join trans t on 
g. carld =t. carld and g. timestamp > t. downtimestamp and g. timestamp < t. downtimestamp + 150" 
val join, 1 min, hou = sqlContext. sql( join. sqll). registerTempTable( " join, 1 min, hou" ) 
val sql. mintime = "select a. carld , a. downtime , min( a. timestamp) as timestamp 
from join. 1 min, hou a group by a. carld , a. downtime" 
val mintime T = sqlContext. sql( sql. mintime). registerTempTable( " mintime T" ) 
val join. sql1, min = "select a. carld , a. longitude, a. latitude, a. time, a. timestamp, 
a. downtime , a. downtimestamp , a. mileage , a. money 
from join, 1 min, hou a inner join mintime, T b on a. carld = b. carld and a. timestamp = b. timestamp" 


val hou, min = sqlContext. sql( join. sqll, min). registerTempTable( " hou, min" ) 


// 取 下 车 时 间 前 150 s 内 上 传 的 gps, 找 出 最 靠近 下 车 时 间 的 对 应 时 间 和 gps 

val join_sql2 = " select g. carld ,g. longitude, g. latitude, g. time,g. timestamp ,t. downtime," + 
" t. downtimestamp ," + "t. mileage,t. money from gps g inner join trans t on g. carld = t. carld and 
g. timestamp < t. downtimestamp and g. timestamp > t. downtimestamp — 150" 

val join 1min, qian = sqlContext. sql( join. sql2). registerTempTable( " join. 1 min, qian" ) 

val sql. maxtime = "select a. carld ,a. downtime , max( a. timestamp) as timestamp from join, 1 min - 
qian a group by a. carld , a. downtime" 

val maxtime, T = sqlContext. sql( sql. maxtime). registerTempTable( " maxtime T" ) 

val join. sql2. max = " select a. carld , a. longitude , a. latitude , a. time, a. timestamp , a. downtime, 
a. downtimestamp , a. mileage,a. money from join, 1 min, qian a inner join maxtime T b 
on a. carld =b. carld and a. timestamp = b. timestamp" 


val hou, max = sqlContext. sql( join. sql2. max). registerTempTable( " qian. max" ) 


/A 下 和 车 时 间 前 最 近 的 时 间 和 下 和 车 时 间 后 最 近 的 时 间 , 找 出 真正 最 近 的 时 间 以 及 对 应 的 gps 就 


是 我 们 要 找 的 最 接近 的 下 车 时 间 的 gps 


sqlContext. sql( " select * from hou_min union select * from qian_max" ). registerTempTable 


( " qianhou" ) 


sqlContext. sql( " select * ,abs(a. downtimestamp — a. timestamp) as timediff from qianhou a" ) 
. registerTempTable ( " qianhoutimediff" ) 

sqlContext. sql( " select a. carld ,a. downtime , min( a. timediff) as timediff from qianhoutimediff a 
group by a. carld ,a. downtime" ). registerTempTable ( " mintimediff" ) 


val result = sqlContext. sql ( " select distinct a. carld , a. longitude, a. latitude, a. time, a. downtime, 
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a. mileage , a. money ,a. timediff 


from qianhoutimediff a join mintimediff b on a. carld = b. carld and a. downtime = b. downtime" ) 
result. rdd. saveAsTextFile( resulturl ) 
| 
| 


思考 题 


1. Spark SQL 最 核心 的 部 分 就 是 Catalyst 优化 融 ， 它 负责 查询 语句 的 整个 处 理 过 程 ， 包 
括 解 析 、 绑 定 、 优 化 、 物 理 计划 等 。 请 概述 Catalyst 优化 硕 的 整个 处 理 过 程 。 
2. 在 Hive 数据 操作 的 演示 部 分 ， 我 们 分 析 了 订单 交易 数据 操作 ， 这 个 案例 看 起 来 有 点 
复杂 ， 但 很 有 代表 性 ， 请 自己 搭建 Hive on Spark 环境 ， 亲 自动 手 实践 这 个 案例 。 
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7.1 Spark Streaming 运行 原理 
7.2 源码 解析 Spark Streaming 的 运行 过 程 


7.3 Spark Streaming 操作 实例 演示 


f Spark 核心 源码 分 析 与 开发 实战 


Spark Streaming 运行 原理 


7.1.1 Spark Streaming 简介 | 


EG EB SCA BID HE, AMI AK I S] IB SE OR BOR ERE. TESTA) MapRe- 
duce 等 批 处 理 框架 在 某 些 特定 领域 (如 实时 用 户 推荐 ， 用 户 行 为 分 析 ) 已 经 无 法 满足 人 
们 对 实时 性 的 需求 。 因 此 诞生 了 一 批 如 S4, Storm 这 样 的 流 式 的 、 实 时 的 计算 框架 。 作 为 
伯克利 实验 室 云 计算 软件 技术 堆栈 一 部 分 的 Spark Streaming， 正 是 类 似 于 Storm 的 流 式 数 
据 处 理 技术 框架 。 

1. Spark Streaming 的 原理 

Spark Streaming 是 建立 在 Spark 上 的 应 用 框架 ， 利 用 Spark 的 底层 框架 作为 其 执行 引擎 ， 
并 在 其 上 构建 了 DStream 的 行为 抽象 。 它 的 工作 原理 是 将 流 式 计算 分 解 成 一 系列 短小 的 批 处 
理 作业 ， 也 就 是 把 Spark Streaming 的 输入 数据 按照 batch size (如 1s) 分 成 一 段 一 段 的 数据 
( Discretized Stream) ， 每 一 段 数据 都 转换 成 Spark 中 的 RDD (Resilient Distributed Dataset ) , 
然后 将 Spark Streaming 中 对 DStream 的 Transformation 操作 变 为 针对 Spark 中 对 RDD 的 Trans- 
formation 操作 ， 将 RDD 经 过 操作 变 成 中 间 结 果 保 存在 内 存 中 。 整 个 流 式 计算 根据 业务 的 需 
求 可 以 对 中 间 的 结果 进行 琶 加 ， 或 者 存储 到 外 部 设备 〈 如 图 7-1 所 示 )。 


批 处 理 批 处 理 
MABE a ) 输入 数据 _、[ spa “| 处 理 完 的 数据 
p-— fees re E 


图 7-1 Spark Streaming 处 理 示 意图 


Spark Streaming 属于 Spark 的 核心 子 框 架 ， 它 具有 对 实时 流 数 据 人 处理 的 高 否 吐 量 和 容错 
能 力 强 的 特性 。 它 可 以 接受 来 自 Kafka, Flume, HDFS/S3, Kinesis 和 Twitter 等 数据 源 的 数 
据 ， 并 使 用 简单 丰富 的 API 函数 (比如 map, reduce, join, window 等 操作 ) 来 实现 更 加 复 
杂 的 功能 ， 而 计算 结果 也 能 保存 在 很 多 地 方 ， 如 HDFS, DataBases 等 (如 图 7-2 tas). 5 
外 Spark Streaming 也 能 和 Spark 内 置 的 MLlib (Hár) 以 及 Graphx (图 计算 ) 完美 融 
合 ， 对 实时 数据 进行 更 加 复杂 的 处 理 。 


< 

Spark 
e 

Streaming 


[d 7-2 Spark Streaming 运行 架构 图 
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2. Storm 5 Spark Streaming 的 比较 

Storm 和 Spark Streaming 2e 4) 48 xii Ab BS JT ER, Hes ft] Z DRE EA — 28 EXC 5j 
的 ， 这 里 将 它们 进行 比较 并 指出 它们 的 重要 的 区 别 。 

(1) 处 理 模 型 和 延迟 。 虽 然 这 两 个 框架 都 提供 可 扩展 性 和 容错 性 ,但 是 它们 的 处 理 模 > 
型 从 根本 上 说 是 不 一 样 的 。Storm 处 理 的 是 每 次 传 入 的 一 个 事件 ， 而 Spark Streaming 是 处 理 
某 个 时 间 段 窗口 内 的 事件 流 。 因 此 ，Storm 处 理 一 个 事件 可 以 达到 亚 秒 级 的 延迟 ， 而 Spark 
Streaming MJA JL GH AY HEI © 

(2) 容错 和 数据 保证 。 在 容错 数据 保证 方面 的 权衡 方面 ，Spark Streaming 提供 了 更 好 的 
支持 容错 状态 计算 。 在 Storm 中 ， 当 每 条 单独 的 记录 通过 系统 时 必须 被 跟踪 ， 所 以 Storm 能 
够 至 少 保证 每 条 记录 将 被 处 理 一 次 ,但 是 在 从 错误 中 恢复 过 来 时 候 允 许 出 现 重 复 记 录 。 这 意 
味 着 可 变 状 态 可 能 不 正确 地 被 更 新 两 次 。 而 Spark Streaming 只 需要 在 批 处 理 级 别 对 记录 进行 
跟踪 处 理 ， 因 此 可 以 有 效 地 保证 每 条 记录 将 完全 被 处 理 一 次 ， 即 便 一 个 结 点 发 生 故 障 。 虽 然 
Storm 的 Trident library 库 也 提供 了 完全 一 次 处 理 的 功能 。 但 是 它 依赖 于 事务 更 新 状态 ， 而 这 
个 过 程 是 很 慢 的 ， 并 且 通 常 必 须 由 用 户 实现 。 

简 而 言 之 ， 如 果 你 需要 亚 秒 级 的 延迟 ，Storm 是 一 个 不 错 的 选择 ， 而 且 没 有 数据 丢失 。 
如 果 你 需要 有 状态 的 计算 ， 而且 要 完全 保证 每 个 事件 只 被 处 理 一 次 ，Spark Streaming 则 更 
fo Spark Streaming 编程 逻辑 也 更 容易 ， 因 为 它 类 似 于 批 处 理 程序 ， 特 别 是 在 你 使 用 批 次 
(尽管 是 很 小 的 ) 时 。 

(3) 实现 和 编程 API, Storm 主要 是 由 Clojure 语言 实现 ，Spark Streaming 是 由 Scala 实 
现 。 如 果 你 想 看 看 这 两 个 框架 是 如 何 实现 的 ， 或 者 你 想 自 定义 一 些 东 西 你 就 得 记 住 这 一 点 : 
Storm 是 由 BackType 和 Twitter 开发 ， 而 Spark Streaming 是 在 UC Berkeley 开发 的 。 

Storm 提供 了 Java API， 同 时 也 支持 其 他 语言 ， 而 Spark Streaming 是 以 Scala 编程 ， 同 时 
也 支持 Java 和 Python, 

Spark Streaming 一 个 好 的 特性 是 其 运行 在 Spark 上 ， 这 样 你 能 够 你 编写 批 处 理 的 同样 代 
个 ， 这 就 不 需要 编写 单独 的 代码 来 处 理 实时 流 数 据 和 历史 数据 。 

(4) 产品 支持 。Storm 已 经 出 现 好 多 年 了 ， 而 且 自 从 2011 年 开始 就 在 Twitter 内 部 生产 
环境 中 使 用 ， 还 有 其 他 一 些 公 司 也 在 使 用 。 而 Spark Streaming 是 一 个 新 的 项 目 ， 并 且 在 
2013 年 仅仅 被 Sharethrough 使 用 。Storm 是 Hortonworks Hadoop 数据 平台 中 流 处 理 的 解决 方 
案 ， 而 Spark Streaming 出 现在 MapR 的 分 布 式 平台 和 Cloudera 的 企业 数据 平台 中 。 除 此 之 
Jh, Databricks 是 为 Spark 提供 技术 支持 的 公司 ， 包 括 了 Spark Streaming, 

(5) 集群 管理 集成 。 尽 管 两 个 系统 都 运行 在 它们 上 自己 的 集群 上 ，Storm 也 能 运行 在 Me- 
sos, Mj Spark Streaming 能 运行 在 YARN 和 Mesos 上 。 


— 


编程 模型 DStream 


DStream (Discretized Stream) 作为 Spark Streaming 的 基础 抽象 ， 它 代表 持续 性 的 数据 
流 。 这 些 数据 流 既 可 以 通过 外 部 输入 源 来 获取 ， 也 可 以 通过 现 有 的 Dstream 的 transformation 
操作 来 获得 。 在 内 部 实现 上 ，DStream 由 一 组 时 间 序 列 上 连续 的 RDD 来 表示 。 每 个 RDD 都 
包含 了 自己 特定 时 间 间 隔 内 的 数据 流 ， 如 图 7-3 Sra. 
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RDD@time 1 RDD@time 2 RDD@time 3 RDD@time 4 


DStream - — E from p from ET from EF from | . 
time E tol time p to2 time 2 to ET time EF to 4 
[| 7-3  DStream 中 在 时 间 轴 下 生成 离散 的 RDD 序列 


对 DStream 中 数据 的 各 种 操作 也 是 映射 到 内 部 的 RDD 上 来 进行 的 ， 如 图 7-4 所 示 ， 
对 Dtream 的 操作 可 以 通过 RDD 的 transformation 生成 新 的 DStream。 这 里 的 执行 引擎 是 


Spark 。 
lines __] linesfrom |. 
DStream time 0 to 1 
转换 
words | words from | 
DStream time O to 1 


[d] 7-4  DStream 的 操作 流程 


lines from 
time 3 to 4 


words from 
time 3 to 4 


. 怎样 使 用 Spark Streaming 
t Spark «E 的 应 用 框架 " Spark Streaming TK Ze 下 Spark 的 编程 风格 , 对 于 已 
经 了 解 Spark 的 用 户 来 说 能 够 快速 地 上 手 。 接 下 来 以 Spark Streaming 官方 提供 的 Word Count 
代码 为 例 来 介绍 Spark Streaming 的 使 用 方式 。 


import org. apache. spark. _ 


import org. apache. spark. streaming. _ 


import org. apache. spark. streaming. StreamingContext. _ 


// Create a localStreamingContext with two working thread and batch interval of 1 second. 
//'The master requires 2 cores to prevent from a starvation scenario. 
val conf = newSparkConf( ). setMaster( " local| 2] " ). setAppName( " NetworkWordCount" ) 


valssc = new StreamingContext ( conf , Seconds ( 1) ) 


// Create aDStream that will connect to hostname ; port , like localhost ;9999 
val lines = ssc. socketTextStream( " localhost" ,9999) 


// Split each line into words 

val words = lines. flatMap(_. split(" ")) 

import org. apache. spark. streaming. StreamingContext. _ 
// Count each word in each batch 

val pairs = words. map( word => ( word,1) ) 


valwordCounts = pairs. reduceByKey(_ + _) 


// Print the first ten elements of each RDD generated in thisDStream to the console 


wordCounts. print( ) 
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ssc. start( ) //Start the computation 


ssc. awaitTermination( ) //Wait for the computation to terminate 


(1) 创建 StreamingContext 对 象 。 同 Spark 初始 化 需要 创建 SparkContext 对 象 一 样 ， 使 用 
Spark Streaming 就 需要 创建 StreamingContext 对 象 。 创 建 StreamingContext 对 象 所 需 的 参数 与 > 
SparkContext 基本 一 致 ， 包 括 指明 Master， 设 定名 称 (如 NetworkWordCount) 。 需 要 注意 的 是 
参数 Seconds(1) Spark Streaming 需要 指定 处 理 数据 的 时 间 间 隔 ， 如 上 例 所 示 的 1s, ABA 
Spark Streaming 会 以 1s 为 时 间 窗 口 进行 数据 处 理 。 此 参数 需要 根据 用 户 的 需求 和 集群 的 处 理 
能 力 进行 适当 的 设置 。 

(2) 创建 mmputDStream。 如 同 Storm 的 Spout, Spark Streaming 需要 指明 数据 源 。 如 代码 
中 所 示 的 socketTextStream, Spark Streaming 以 socket 连接 作为 数据 源 读 取 数据 。 当 然 Spark 
Streaming 支持 多 种 不 同 的 数据 源 ， 包 括 Kafka, Flume, HDFS/S3, Kinesis 和 Twitter 等 数 
据 源 。 

(3) 操作 DStream。 对 于 从 数据 源 得 到 的 DStream， 用 户 可 以 在 其 基础 上 进行 各 种 操 
作 ， 如 上 例 所 示 的 操作 就 是 一 个 典型 的 word count 执行 流程 : 对 于 当前 时 间 窗 口内 从 数据 
源 得 到 的 数据 首先 进行 分 割 ， 然 后 利用 map 和 reduceByKey 方法 进行 计算 ， 当 然 最 后 还 有 
使 用 print( ) 方 法 输出 结 

(4) 启动 Spark Steaming。 之 前 所 作 的 所 有 步骤 只 是 创建 了 执行 流程 ， 程 序 没 有 真正 连 
接 上 数据 源 ， 也 没有 对 数据 进行 任何 操作 ， 只 是 设 定好 了 所 有 的 执行 计划 ， 当 sse. start( ) Ja 
动 后 程序 才 真 正 进行 所 有 预期 的 操作 。 

至 此 对 于 Spark Streaming 的 如 何 使 用 有 了 一 个 大 概 的 印象 ， 在 后 面 的 章节 我 们 会 通过 源 
TORTE AE Spark Streaming 的 执行 流程 。 

2. DStream 的 输入 源 

在 Spark Streaming 中 所 有 的 操作 都 是 基于 流 的 ， 而 输入 源 是 这 一 系列 操作 的 起 点 。 输 入 
DStreams 和 DStreams 接收 的 流 都 代表 输入 数据 流 的 来 源 。 在 Spark Streaming 提供 两 种 内 置 
数据 流 来 源 : 

e 基础 来 源 : 在 StreamingContext API 中 直接 可 用 的 来 源 。 例 如 : 文件 系统 、Socket (E 

接 字 ) 连接 和 Akka actors; 

e 高 级 来 源 : 如 Kafka, Flume, Kinesis, Twitter 等 ， 可 以 通过 额外 的 实用 工具 类 创建 。 

(1) 基础 来 源 。 在 前 面 分 析 怎 样 使 用 Spark Streaming 的 例子 中 我 们 已 看 到 ssc. socket- 
TextStream( ) 方 法 ， 可 以 通过 TCP 套 接 字 连接 ， 从 从 文本 数据 中 创建 了 一 个 DStream。 除 了 
套 接 字 ，StreamingContext 的 API 还 提供 了 方法 从 文件 和 Akka actors 中 创建 DStreams 作为 输 
AI o 

Spark Streaming 提供 了 streamingContext. fileStream (dataDirectory) 方法 可 以 从 任何 文件 
系统 (如 : HDFS, 83, NFS 等 ) 的 文件 中 读 取 数据 ， 然 后 创建 一 个 DStream。Spark Stream- 
ing 监控 dataDirectory 目录 和 在 该 目录 下 任何 文件 被 创建 处 理 (不 支持 在 向 套 目录 下 写 文 
件 ) 。 需 要 注意 的 是 : 读 取 的 必须 是 具有 相同 的 数据 格式 的 文件 ; 创建 的 文件 必须 在 dataDi- 
rectory 目录 下 ， 并 通过 上 自动 移动 或 重 命名 成 数据 目录 ; 文件 一 旦 移动 就 不 能 被 改变 ， 如 果 文 
件 被 不 断 妃 加 ， 新 的 数据 将 不 会 被 阅读 。 对 于 简单 的 文本 文 ， 可 以 使 用 一 个 简单 的 stream- 
ingContext. textFileStream( dataDirectory ) 方 法 来 读 取 数据 。 
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Spark Streaming 也 可 以 基于 自 定义 Actors 的 流 创建 DStream， 通 过 Akka actors 接受 数据 
流 ， 使 用 方法 streamingContext. actorStream ( actorProps , actor — name ) 。 

Spark Streaming 使 用 streamingContext. queueStream ( queueOfRDDs ) 方法 可 以 创建 基于 
RDD 队列 的 DStream, SEA RDD 队列 将 被 视 为 DStream 中 一 块 数据 流 进行 加 工 处 理 。 

(2) 高 级 来 源 。 这 一 类 的 来 源 需 要 外 部 non - Spark 库 的 接口 ， 其 中 一 些 有 复杂 的 依赖 
关系 (如 Kafka、Flume)。 因 此 通过 这 些 来 源 创建 DStreams 需要 明确 其 依赖 。 例 如 ， 如 果 想 
创建 一 个 使 用 Twitter tweets 的 数据 的 DStream 流 ， 必 须 按 以 下 步 又 来 做 : 

1) 在 SBT 或 Maven 工 程 里 添加 spark - streaming - twitter 2. 10 依赖 。 

2) 开发 : 导入 TwitterUtils 包 ， 通 过 TwitterUtils. createStream 方法 创建 一 个 DStream, 

3) 部 署 : 添加 所 有 依赖 的 jar 包 (包括 依赖 的 spark — streaming - twitter. 2. 10 及 其 依 
赖 )， 然 后 部 署 应 用 程序 。 

需要 注意 的 是 ， 这 些 高 级 的 来 源 一 般 在 Spark Shell 中 不 可 用 ， 因 此 基于 这 些 高 级 来 源 的 
应 用 不 能 在 Spark Shell 中 进行 测试 。 如 采 你 必须 在 Spark shell 中 使 用 它们 ， 你 需要 下 载 相应 
的 Maven 工程 的 Jar 依赖 并 添加 到 类 路 径 中 。 

e Twitter; Spark Streaming 的 TwitterUtils 工具 类 使 用 Twitter 4J, Twitter 4J 库 支 持 通 过 任 

何方 法 提供 身份 验证 信息 ， 你 可 以 得 到 公众 的 流 ， 或 得 到 基于 关键 词 过 滤 流 。 

e Flume: Spark Streaming 可 以 从 Flume 中 接受 数据 。 

e Kafka; Spark Streaming 可 以 从 Kafka 中 接受 数据 。 

e Kinesis; Spark Streaming 可 以 从 Kinesis 中 接受 数据 。 

需要 重申 的 一 点 是 ， 在 开始 编写 自己 的 SparkStreaming 程序 之 前 ， 一 定 要 将 高 级 来 源 依 
RAY Jar 添加 到 SBT 或 Maven 项 目 相 应 的 artifact 中 。 第 见 的 输入 源 和 其 对 应 的 Jar 包 如 


图 7 -5 所 不 o 
Source Artifact 
Kafka spark-streaming-kafka_2.10 
Flume spark-streaming-flume 2.10 
Kinesis spark-streaming-kinesis-as| 2.10 [Amazon Software License] 
Twitter spark-streaming-twitter 2.10 
ZeroMQ spark-streaming-zeromq 2.10 
MQTT spark-streaming-mqtt 2.10 


图 7-5 输入 源 和 其 对 应 的 Jar £2 


另外 ， 输 入 DStream 也 可 以 创建 自 定 义 的 数据 源 ， 需 要 做 的 就 是 实现 一 个 用 户 定 义 的 接 
WEE 

2. DStream 的 操作 

与 RDD 类 似 ，DStream 也 提供 了 自己 的 一 系列 操作 方法 ， 这 些 操作 可 以 分 成 三 类 : 一 种 
是 普通 的 转换 操作 ， 一 种 是 基于 窗口 的 转换 操作 ， 最 后 是 输出 操作 。 

(1) 普通 的 转换 操作 。 首 先 我 们 来 看 普通 的 转换 操作 都 有 哪些 ， 如 表 7-1 所 示 。 
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7-1 DStream 的 普通 转换 操作 


Transformation Meaning 
map (func ) 源 DStream 的 每 个 元 素 通过 函数 func 返回 一 个 新 的 DStream 
flatMap (func) 类 似 与 map 操作 ， 不 同 的 是 每 个 输入 元 素 可 以 被 映射 出 0 或 者 更 多 的 输出 元 素 
flee Hine) 在 源 DSTREAM 上 选择 Func 函数 返回 仅 为 true. 的 元 素 ， 最 终 返 回 一 个 新 
的 DSTREAM 
repartition ( numPartitions ) 通过 输入 的 参数 numPartitions 的 值 来 改变 DStream 的 分 区 大 小 
union ( otherStream ) 返回 一 个 包含 源 DStream 与 其 他 DStream 的 元 素 合 并 后 的 新 DSTREAM 
Te 对 源 DStream 内 部 的 所 含有 的 RDD 的 元 素数 量 进 行 计数 ， 返 回 一 个 内 部 的 RDD 只 
包含 一 个 元 素 的 DStreaam 
使 用 函数 fune. (有 两 个 参数 并 返回 一 个 结果 ) 将 源 DStream 中 每 个 RDD 的 元 素 进 
reduce (func ) 


行 聚 合 操作 ， 返 回 一 个 内 部 所 包含 的 RDD 只 有 一 个 元 素 的 新 DStream 


计算 DStream 中 每 个 RDD 内 的 元 素 出 现 的 频次 并 返回 新 的 DStream[ (K,Long) ] ， 其 


OPTEIN UMEK 中 是 RDD 中 元 素 的 类 型 ，Long 是 元 素 出 现 的 频次 


当 一 个 类 型 为 (K,V ) 键 值 对 的 DStream 被 调用 的 时 候 ， 返 回 类 型 为 类 型 为 (K,V) 键 
值 对 的 新 DStream， 其 中 每 个 键 的 值 V 都 是 使 用 到 合 函数 func 汇总 。 注 意 : 默认 情况 
下 ,使 用 Spark 的 默认 并 行 度 提交 任务 (本 地 模式 下 并 行 度 为 2， 集 群 模式 下 位 8), 
可 以 通过 配置 numTasks 设置 不 同 的 并 行 任务 数 


reduceByKey ( func , | numTasks | ) 


当 被 调用 类 型 分 别 为 (K,V) 和 (K,W) 键 值 对 的 2 个 DStream 时 ,返回 类 型 为 (K， 
(V,W) ) 键 值 对 的 一 个 新 DSTREAM 

当 被 调用 的 两 个 DStream 分 别 含 有 (K,V) 和 (K,W) 键 值 对 时 ， 返 回 一 个 (K,Seq 
[ V], SeqUW ]) 2S 8H rH] DStream 


join ( otherStream , | numTasks | ) 


cogroup ( otherStream , | numTasks | ) 


通过 对 源 DStream 的 每 RDD 应 用 RDD -to - RDD 函数 返回 一 个 新 的 DStream, ix n] 
以 用 来 在 DStream 做 任意 RDD 操作 


transform( func ) 


返回 一 个 新 状态 的 DStream， 其 中 每 个 键 的 状态 是 根据 键 的 前 一 个 状态 和 键 的 新 值 


updateStateByKey (func) | 应 用 给 定 函 数 func 后 的 更 新 。 这 个 方法 可 以 被 用 来 维持 每 个 键 的 任何 状态 数据 


在 上 面 列 出 的 这 些 操 作 中 ，transform( ) 方 法 和 updateStateByKey ( ) 方 法 值得 我 们 次 入 的 
探讨 一 下 ， 

1) transform(func ) 方 法 。 该 transform 方法 (转换 操作 ) 连同 其 类 似 的 transformWith 操 
作 人 允许 DStream 上 应 用 任意 RDD -to - RDD AŽ. transform 可 以 被 应 用 于 在 DStream API 中 
未 又 露 任何 的 RDD 操作 。 例 如 ， 在 每 批 次 的 数据 流 与 另 一 数据 集 的 连接 功能 不 直接 又 露 在 
DStream API 中 ， 但 可 以 轻松 地 使 用 transform 操作 来 做 到 这 一 点 ， 这 使 得 DStream 的 功能 非 
常 强大 。 例 如 ， 你 可 以 通过 连接 预先 计算 的 垃圾 邮件 信息 的 输入 数据 流 (可 能 也 有 Spark Æ 
成 的 )， 然 后 基于 此 做 实时 数据 清理 的 第 选 ， 如 下 面 官方 提供 的 伪 代 码 所 示 。 事 实 上 ， 也 可 
以 在 transform 方法 中 使 用 机 带 学 习 和 图 形 计算 的 算法 。 


val spamInfoRDD = ssc.sparkContext.newAPIHadoopRDD(...) RDO containing spam information 


val cleanedDStream = wordCounts.transform(rdd => { 
rdd. join(spamInfoRDD).filter(...) jon data stream with spam information to do data cleaning 


}) 


2) updateStateByKey 方法 。 该 updateStateByKey 方法 可 以 让 你 保持 任意 状态 ， 同 时 不 断 
有 新 的 信息 进行 更 新 。 要 使 用 此 功能 ， 必 须 进 行 两 个 步骤 : 


e 
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e 定义 状态 一 一 状态 可 以 是 任意 的 数据 类 型 。 
e 定义 状态 更 新 函数 一 一 用 一 个 函数 指定 如 何 使 用 先前 的 状态 和 从 输入 流 中 获取 的 新 值 


更 新 状态 。 


让 我 们 用 一 个 例子 来 说 明 ， 假 设 你 要 进行 文本 数据 流 中 单词 计数 。 在 这 里 ， 正 在 运行 的 
计数 是 状态 而 且 它 是 一 个 整数 。 我 们 定义 了 更 新 功能 如 下 : 


def updateFunction(newValues: 


val newCount =... 


Some(newCount) 


1 
J 


Seq[Int], runningCount: Option[Int]): Option[Int] = { 


c ne varUues i th 


此 函数 应 用 于 含有 键 值 对 的 DStream 中 (如 前 面 的 示例 中 ， 在 DStream 中 含有 (word, 


1) 键 值 对 ) 。 它 会 针对 里 面 的 每 个 元 素 (如 wordCount 中 的 word ) 调用 一 下 更 新 函数， ne- 
wValues 是 最 新 的 值 ，runningCount 是 之 前 的 值 。 


val runningCounts 


= pairs.updateStateByKey[Int](updateFunction _) 


(2) 窗口 操作 。Spark Streaming 还 提供 了 窗口 的 计算 ， 它 允许 你 通过 请 动 窗口 对 数据 进 
行 转换 。 下 面 我 们 先 通过 表 7-2 看 看 都 有 哪些 窗口 操作 。 


Transformation 


表 7-2 窗口 操作 及 其 含义 


Meaning 


window ( windowLength , slidelnter- 
val) 


返回 一 个 基于 源 DStream 的 窗口 批 次 计算 后 得 到 新 的 DStream 


countByWindow ( windowLength , sli- 
delnterval ) 


返回 基于 滑动 窗口 的 DStream 中 的 元 素 的 数量 


reduceByWindow ( func, window- 
Length , slideInterval ) 


基于 滑动 窗口 对 源 DStream 中 的 元 素 进行 聚合 操作 ， 得 到 一 个 新 的 DStream 


reduceByKey AndWindow ( func , win- 
dowLength , slideInterval , | numTasks | ) 


基于 滑动 窗口 对 (K,V) 键 值 对 类 型 的 DStream 中 的 值 按 K 使 用 聚合 函数 fune 进行 
聚合 操作 ， 得 到 一 个 新 的 DStream 


reduceByKeyAndWindow ( func , inv- 
Func, windowLength , 
| numTasks | ) 


slideInterval , 


一 个 更 高 效 的 reduceByKkeyAndWindow( ) 的 实现 版 本 ， 先 对 滑动 窗口 中 新 的 时 间 
间隔 内 数据 增 量 聚合 并 移 去 最 早 的 与 新 增 数 据 量 的 时 间 间 隔 内 的 数据 统计 量 。 例 
如 ， 计 算 t+4s 这 个 时 刻 过 去 5s 窗口 的 WordCount， 那 么 我 们 可 以 将 1+3 时 刻 过 去 
5s 的 统计 量 加 上 [t+3,t+4] 的 统计 量 ， 在 减 去 [t-2,t-1j] 的 统计 量 ， 这 种 方法 可 
以 复 用 中 间 3 s 的 统计 量 ， 提 高 统计 的 效率 


countBy ValueAndWindow ( window- 
Length , slideInterval , | numTasks | ) 


基于 滑动 窗口 计算 源 DStream 中 每 个 RDD 内 每 个 元 素 出 现 的 频次 并 返回 DStream 
[(K,Long) ] ， 其 中 Æ RDD 中 元 素 的 类 型 Long 是 元 素 频次 。 与 countByValue 一 
FÉ, reduce 任务 的 数量 可 以 通过 一 个 可 选 参 数 进 行 配置 


下 面 我 们 结合 图 7-6 来 讲解 一 下 窗口 操作 的 一 些 概念 。 
在 Spark Streaming 中 ， 数 据 处 理 是 按 批 进行 的 ， 而 数据 采集 是 逐条 进行 的 ， 因 此 在 


Spark Streaming 中 会 先 设 置 好 批 处 理 间 隔 (batch duration) ， 当 超过 批 处 理 间 隔 的 时 候 就 会 
把 采集 到 的 数据 汇总 起 来 成 为 一 批 数据 交 给 系统 去 处 理 。 

对 于 窗口 操作 而 言 ， 在 其 窗口 内 部 会 有 N 个 批 处理 数 据 ， 批 处 理 数据 的 大 小 由 窗口 间 
阳 (window duration) 决定 ， 而 窗口 间隔 指 的 就 是 窗口 的 持续 时 间 ， 在 窗口 操作 中 ， 只 有 和 窗 
口 的 长 度 满足 了 才 会 触发 批 数 据 的 处 理 。 除 了 窗口 的 长 度 ， 窗 口 操作 还 有 男 一 个 重要 的 参数 
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time 1 time 2 time 3 time 4 time 5 


original 
DStream 


windowed 
DStream 


at time 1 at time 3 at time 5 


图 7-6 ， 批 处 理 间隔 示意 图 


就 是 滑动 间隔 (slide duration) ， 它 指 的 是 经 过 多 长 时 间 窗 口 消 动 一 次 形成 新 的 窗口 ， 滑 动 
窗口 默认 情况 下 和 批 次 间隔 的 相同 ， 而 窗口 间隔 一 般 设置 的 要 比 它们 两 个 大 。 在 这 里 必须 注 
意 的 一 点 是 滑动 间 隅 和 窗口 间隔 的 大 小 一 定 得 设置 为 批 处 理 间 隔 的 整数 倍 。 

如 图 7-6 所 示 ， 批 处 理 间隔 是 1 个 时 间 单 位 ， 窗 口 间 隔 是 3 TBI, IURI A 2 
个 时 间 单 位 。 对 于 初始 的 窗口 timel ~time3 ， 只 有 窗口 间隔 满足 了 才 触 发 数据 的 处 理 。 这 里 
需要 注意 的 一 点 是 ， 初 始 的 窗口 有 可 能 流入 的 数据 没有 撑 满 ， 但 是 随 着 时 间 的 推进 ， 窗 口 最 
终 会 被 撑 满 。 当 每 隔 两 个 时 间 单 位 ， 窗 口 滑动 一 次 后 ， 会 有 新 的 数据 流入 窗口 ， 这 时 窗口 会 
移 去 最 早 的 两 个 时 间 单 位 的 数据 ， 而 与 最 新 的 两 个 时 间 单 位 的 数据 进行 汇总 形成 新 的 窗口 
(time3 ~ time5) 。 

对 于 窗口 操作 ， 批 处 理 间 隔 、 窗 口 间 隔 和 清 动 间隔 是 非常 重要 的 三 个 时 间 概 念 ， 是 理解 
窗口 操作 的 关键 所 在 。 

(3) 输出 操作 。Spark Streaming 允许 DStream 的 数据 被 输出 到 外 部 系统 ， 如 数据 库 或 文 
件 系统 。 由 于 输出 操作 实际 上 使 transformation 操作 后 的 数据 可 以 通过 外 部 系统 被 使 用 ， 同 
时 输出 操作 触发 所 有 DStream 的 transformation 操作 的 实际 执行 (类 似 于 RDD 操作 ) UF 
表 7-3 列 出 了 目前 主要 的 输出 操作 : 

表 7-3 输出 操作 及 其 含义 
输出 操作 ae X 
print( ) 在 Driver 中 打印 出 DStream 中 数据 的 前 10 个 元 素 


将 DStream 中 的 内 容 以 文本 的 形式 保存 为 文本 文件 ， 其 中 每 次 批 处 理 间隔 内 产生 
的 文件 以 prefix - TIME IN. MS[. suffix | 的 方式 命名 


将 DStream 中 的 内 容 按 对 象 序列 化 并 且 以 SequenceFile 的 格式 保存 。 其 中 每 次 批 
处 理 间隔 内 产生 的 文件 以 prefix - TIME. IN. MS[. suffix ] 的 方式 命名 


将 DStream 中 的 内 容 以 文本 的 形式 保存 为 Hadoop 文件 ， 其 中 每 次 批 处 理 间隔 内 产 
生 的 文件 以 prefix — TIME_IN_MS[. suffix | 的 方式 命名 


最 基本 的 输出 操作 ， 将 fune 函数 应 用 于 DStream 中 的 RDD 上 ， 这 个 操作 会 输出 
foreachRDD( func) 数据 到 外 部 系统 ， 比 如 保存 RDD 到 文件 或 者 网 络 数据 库 等 。 需 要 注意 的 是 func PR 
数 是 在 运行 该 streaming 应 用 的 Driver 进程 里 执行 的 


saveAsTextFiles( prefix , | suffix | ) 


saveAsObjectFiles ( prefix , | suffix | ) 


save AsHadoopFiles ( prefix , | suffix | ) 


dstream. foreachRDD 是 一 个 非常 强大 的 输出 操作 ， 它 允 将 许 数据 输出 到 外 部 系统 。 但 
是 ， 如 何 正确 高 效 地 使 用 这 个 操作 是 很 重要 的 ， 下 面 展示 了 如 何 去 避 人 免 一 些 常 见 的 错误 。 

通常 将 数据 写 入 到 外 部 系统 需要 创建 一 个 连接 对 象 (如 TCP 连接 到 远程 服务 硕 ) ， 并 用 
它 来 发 送 数据 到 远程 系统 。 出 于 这 个 目的 ， 开 发 者 可 能 在 不 经 意 间 在 Spark driver 3g 8 ££ T 
连接 对 象 ， 并 尝试 使 用 它 保存 RDD 中 的 记录 到 Spark worker 上 ， 如 下 面 代码 : 
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dstream.foreachRDD { rdd => 
val connection = createNewConnection() executed at the driver 
rdd.foreach { record => 
connection. send(record) executed at the worker 
] 
} 


这 是 不 正确 的 ， 这 需要 连接 对 象 进 行 序列 化 并 从 Driver 端 发 送 到 Worker 上 。 连 接 对 象 
很 少 在 不 同 机 需 间 进行 这 种 操作 ， 此 错误 可 能 表现 为 序列 化 错误 (连接 对 不 可 序列 化 ) ， 初 
始 化 错误 (连接 对 象 在 需要 在 Worker 上 进行 需要 初始 化 ) 等 等 ,正确 的 解决 办 法 是 在 
Worker 上 创建 的 连接 对 象 。 

但 是 ， 这 可 能 会 导致 另 一 个 浓 见 的 错误 ， 为 每 条 记录 创建 一 个 新 的 连接 对 象 ， 如 下 面 代 
TS ATA o 


dstream.foreachRDD { rdd => 


rdd.foreach { record => 


val connection = createNewConnection() 

connection. send(record) 

connection. close() 

} 
} 
通 带 情况 下 ， 创 建 一 个 连接 对 象 有 时 间 和 资源 开销 。 因 此 ， 创 建 和 销毁 的 每 条 记录 的 连 

接 对 象 可 能 招致 不 必要 的 资源 开销 ， 并 显著 降低 系统 整体 的 否 吐 量 。 一 个 更 好 的 解决 方案 是 
使 用 rdd. foreachPartition 方法 创建 一 个 单独 的 连接 对 象 ， 然 后 使 用 该 连接 对 象 输出 的 所 有 
RDD 分 区 中 的 数据 到 外 部 系统 ， 如 下 面 代码 所 示 。 


dstream.foreachRDD { rdd => 


rdd.foreachPartition { partitionOfRecords => 


val connection = createNewConnection() 
partitionOfRecords.foreach(record => connection. send(record)) 
connection. close() 


] 


} 
3 


这 缓解 了 创建 多 条 记录 连接 的 开销 。 最 后 ， 还 可 以 进一步 通过 在 多 个 RDDs/ batches 上 
重用 连接 对 象 进 行 优化 。 一 个 保持 连接 对 象 的 静态 池 可 以 重用 在 多 个 批 处 理 的 RDD 上 将 其 
输出 到 外 部 系统 ， 从 而 进一步 降低 了 开销 。 


dstream.foreachRDD { rdd => 
rdd.foreachPartition { partitionOfRecords => 
ConnectionPoo] 1s a static, lazily inttialized pool of connection: 
val connection = ConnectionPoo]l.getConnection() 
partitionOfRecords.foreach(record => connection.send(record)) 
Connect1ionPool.returnConnection(connection) return to the poo! for future reuse 
} 


1 
J 


需要 注意 的 是 ， 在 静态 池 中 的 连接 应 该 按 需 延迟 创建 ， 这 样 可 以 更 有 效 地 把 数据 发 送 到 
外 部 系统 。 另 外 需要 要 注意 的 是 : DStreams 是 延迟 执行 的 ， 就 像 RDD 的 操作 是 由 actions fih 
发 一 样 。 默 认 情 况 下 ， 输 出 操作 会 按照 它们 在 Streaming 应 用 程序 中 定义 的 顺序 一 个 个 执行 。 
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容错 和 持久 化 


1. 容错 

DStream 基于 RDD 组 成 ，RDD 的 容错 性 依旧 有 效 ， 我 们 首先 回忆 一 下 SparkRDD 的 基本 
特性 。 

(1) RDD 是 一 个 不 可 变 的 、 确 定性 的 可 重复 计算 的 分 布 式 数据 集 。RDD 的 某 些 parti- 
tion 丢失 了 ， 可 以 通过 血统 (Lineage) 信息 重新 计算 恢复 。 

(2) WR RDD 任何 分 区 因 Worker 结 点 故障 而 丢失 ， 那 么 这 个 分 区 可 以 从 原来 依赖 的 容 
错 数 据 集中 恢复 。 

(3) 由 于 Spark 中 所 有 的 数据 的 转换 操作 都 是 基于 RDD 的 ， 即 使 集群 出 现 故 障 ， 只 要 
输入 数据 集 存 在 ， 所 有 的 中 间 结 果 都 是 可 以 被 计算 的 。 

Spark Streaming 是 可 以 从 HDFS 和 S3 这 样 的 文件 系统 读 取 数 据 的 ， 这 种 情况 下 所 有 的 数 
据 都 可 以 被 重新 计算 ， 不 用 担心 数据 的 丢失 。 但 是 在 大 多 数 情况 下 ，Spark Streaming 是 基于 
网 络 来 接受 数据 的 ， 此 时 为 了 实现 相同 的 容错 处 理 ， 在 接受 网 络 的 数据 时 会 在 集群 的 多 个 
Worker 结 点 间 进 行 数据 的 复制 〈 软 认 的 复制 数 是 2) ， 这 导致 产生 在 出 现 故障 时 被 处 理 的 两 
种 类 型 的 数据 : 

e Data received and replicated; 一 日 一 个 Worker 结 点 失效 ， 系 统 会 从 另 一 份 还 存在 的 数 

据 中 重新 计算 。 
e Data received but buffered for replication; 一 旦 数据 丢失 ， 可 以 通过 RDD 之 间 的 依赖 关 
系 ， 从 HDFS 这 样 的 外 部 文件 系统 恋 取 数 据 。 

此 外 ， 有 两 种 故障 ， 我 们 应 该 关心 : 

e Worker 结 点 失效 : 通过 上 面 的 讲解 我 们 知道 ， 这 时 系统 会 根据 出 现 故 障 的 数据 的 类 
型 ， 选 择 是 从 另 一 个 有 复制 过 数据 的 工作 结 点 上 重新 计算 ， 还 是 直接 从 从 外 部 文件 系 
统 读 取 数据 。 
Driver ( 驱动 结 点 ) 失效 : 如 果 运 行 Spark Streaming 应 用 时 驱动 结 点 出 现 故障 ， 那 么 
很 明显 的 StreamingContext 已 经 丢失 ， 同 时 在 内 存 中 的 数据 也 全 部 丢失 。 对 于 这 种 情 
(ii, Spark Streaming 应 用 程序 在 计算 上 有 一 个 内 在 的 结构 在 每 段 micro - batch 数 
据 周期 性 地 执行 同样 的 Spark 计算 。 这 种 结构 允许 把 应 用 的 状态 〈 亦 称 checkpoint ) 
周期 性 地 保存 到 可 靠 的 存储 空间 中 ， 并 在 driver 重新 启动 时 恢复 该 状态 。 具 体 做 法 是 
在 ssc. checkpoint ( < checkpoint directory > ) 因数 中 进行 设置 ，Spark Streaming 就 会 定 
期 把 DStream 的 元 信息 写 和 人 到 HDFS 中 ， 一 旦 张 动 结 点 失效 ， 丢 失 的 StreamingContext 
会 通过 已 经 保存 的 检查 点 信息 进行 恢复 。 

最 后 我 们 谈 一 下 Spark Stream 的 容错 在 Spark 1. 2 版 本 的 一 些 改进 : 

实时 流 处 理 系统 必须 要 能 在 7 x24 小 时 的 时 间 内 工作 ， 因 此 它 需 要 具备 从 各 种 系统 故障 
中 恢复 过 来 的 能 力 。 最 开始 ，SparkStreaming 就 文 持 从 Driver 和 Worker 故障 恢复 的 能 力 。 然 
而 有 些 数据 源 的 输入 可 能 在 故障 恢复 以 后 丢失 数据 。 在 Sparkl.2 版 本 中 ，Spark 已 经 在 
SparkStreaming 中 对 预 写 日 志 (也 被 称 为 journaling) 作 了 初步 文 持 ， 改 进 了 恢复 机 制 ， 并 使 
更 多 数据 源 的 零 数据 丢失 有 了 可 靠 。 
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对 于 文件 这 样 的 源 数据 ，Driver 恢复 机 制 足以 做 到 零 数 据 丢 失 ， 因 为 所 有 的 数据 都 保存 
在 了 像 HDFS 或 $3 这 样 的 容错 文件 系统 中 了 。 但 对 于 像 Kafka fU Flume 等 其 他 数据 源 ， 有 些 
接收 到 的 数据 还 只 缓存 在 内 存 中 ， 尚 未 被 处 理 ， 它 们 就 有 可 能 会 丢失 。 这 是 由 于 Spark 应 用 
的 分 布 式 操作 方式 引起 的 。 当 Driver 进程 失败 时 ， 所 有 在 standalone/yarn/mesos 集群 运行 的 
Executor， 连 同 它 们 在 内 存 中 的 所 有 数据 ， 也 同时 被 终止 。 对 于 Spark Streaming Kit, Hig 
如 Kafka 和 Flume 的 数据 源 接收 到 的 所 有 数据 ， 在 它们 处 理 完 成 之 前 ， 一 直 都 缓存 在 Execu- 
tor 的 内 存 中 。 纵 然 driver 重新 启动 ， 这 些 缓存 的 数据 也 不 能 被 恢复 。 为 了 避免 这 种 数据 损 
AK, dE Sparkl. 2 发 布 版 本 中 引进 了 预 写 日 志 ( WriteAheadLogs) 功能 。 

预 写 日 志 功 能 的 流程 是 

1) 一 个 SparkStreaming J " 用 开始 时 (也 就 是 Driver 开始 时 ) ， 相 关 的 StreamingContext 使 
用 SparkContext 启动 接收 顺 成 为 长 驻 运行 任务 。 这 些 接收 器 接收 并 保存 流 数 据 到 Spark 内 存 
中 以 供 处 理 。 

2) 接收 禹 通知 Driver。 

3) 接收 块 中 的 元 数据 (metadata) 被 发 送 到 ApplicationDriver 的 StreamingContext。 这 个 
元 数据 包括 : 定位 其 在 Executor 内 存 中 数据 的 块 referenceid， 块 数据 在 日 志 中 的 偏 移 信息 
(如 果 启 用 了 )。 

用 户 传 送 数据 的 生命 周期 如 图 7-7 所 示 。 
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图 7-7 用 户 传送 数据 的 生命 周期 


类 似 Kafka 这 样 的 系统 可 以 通过 复制 数据 保持 可 靠 性 。 人 允许 预 写 日 志 两 次 高 效 地 复制 同 
样 的 数据 : 一 次 由 Kafka， 而 男 一 次 由 SparkStreaming。Spark 未 来 版 本 将 包含 Kafka 容错 机 
制 的 原生 文 持 ， 从 而 避免 第 二 个 日 志 

2. DStream 的 持久 化 

与 RDD 一 样 ，DStream 同样 也 能 通过 persist( ) 方 法 将 数据 流 存放 在 内 存 中 ， 默 认 的 持久 
化 方式 是 MEMORY_ONLY_SER， 也 就 是 在 内 存 中 存放 数据 同时 序列 化 的 方式 ， 这 样 做 的 好 
处 是 遇 到 需要 多 次 迭代 计算 的 程序 时 ， 速 度 优势 十 分 的 明显 。 而 对 于 一 些 基 于 窗口 的 操作 ， 
如 reduceByWindow 、reduceByKeyAndWindow， 以 及 基于 状态 的 操作 ， 如 updateStateBykey , 
其 默认 的 持久 化 策略 就 是 保存 在 内 存 中 。 

对 于 来 自 网 络 的 数据 源 (Kafka, Flume, sockets SE), ， 默 认 的 持久 化 策略 是 将 数据 保存 
在 两 台 机 各 上 ， 这 也 是 为 了 容错 性 而 设计 的 。 

另外 ， 对 于 窗口 和 有 状态 的 操作 必须 checkpoint， 通 过 StreamingContext 的 checkpoint 来 
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指定 目录 ， 通 过 Dtream 的 checkpoint $E [RJ Bi SE TR], — [8] Pi EY s ea (slide interval) 
的 倍数 。 


ment 1 11 )6 


性 能 调 优 需要 考虑 以 下 两 个 方面 : 应 该 尽 可 能 利用 集群 资源 来 减少 每 个 批 处 理 的 时 间 ; 
批 处 理 的 数据 大 小 应 该 尽量 合理 ， 保 证 接收 到 的 数据 能 及 时 人 处理 掉 。 

1. 减少 批 处 理 的 时 间 

减少 批 处 理 时 间 ， 在 Spark 官方 的 调 优 指南 上 也 对 该 调 优 的 细节 做 了 一 定 的 分 析 ， 这 里 
者 重 分 析 下 比较 重要 的 几 个 方面 。 

(1) 在 数据 接收 上 的 并 行 度 ， 包 括 以 下 三 个 方面 。 

1) InputDStream 的 并 行 度 。 通 过 网 络 从 各 种 数据 源 (比如 Kafka, Flume, Socket 等 等 ) 
接收 数据 时 ， 会 要 求 将 数据 反 序 列 化 并 存储 到 Spark。 如 果 数 据 接收 这 块 变 成 系统 瓶 贷 的 话 ， 
就 应 该 考虑 下 提高 数据 接收 的 并 行 度 了 。 

HER 47 Input DStream 创建 一 个 Receiver. (运行 在 每 个 Worker 25,5 E) ， 因 此 只 接收 
一 个 数据 流 ， 因 此 可 以 通过 构建 多 个 Input DStreams， 并 且 进 行 配置 ， 让 它们 从 来 自 数 据 源 
的 流 数 据 的 不 同 分 区 接收 数据 ， 对 应 的 数据 源 提供 的 分 区 个 数 也 就 成 了 Input. DStream 并 行 
度 的 最 大 值 了 。 最 后 可 以 将 创建 的 多 个 DStream 合并 为 单个 DStream 进行 处 理 。 

2) 任务 的 并 行 度 一 一 对 应 RDD 的 分 区 数 。 与 并 行 度 相关 的 另 一 个 需要 考虑 的 配置 参数 
是 spark. streaming. blockInterval, ， 这 是 Receiver 的 块 时 间 间 隔 。 对 大 部 分 的 Receivers, Fyi 
到 的 数据 在 存储 到 Spark 内 存 之 前 ， 会 先 合并 到 blocks 中 。 而 这 个 块 的 个 数 ， 就 对 应 了 批 数 
据 ， 也 就 是 RDD 的 分 区 数 ， 也 就 是 RDD 的 并 行 Task 数 了 。 

KE, Task 的 并 行 度 大 致 等 于 批 数据 的 时 间 片 /接收 块 的 时 间 间 隔 。 比 如 ， 块 间隔 时 间 
为 200 ms， 时 间 片 为 2s 时 ， 对 应 的 Task 就 是 2000 ms/200 ms， 也 就 是 并 行 的 tasks 个 数 为 
10。 如 采 这 里 并 行 的 Task 数 远 小 于 集群 可 用 的 内 核 数 的 话 ， 就 比较 低 效 了 。 因 此 ， 在 给 定 
的 批 数据 时 间 片 前 提 下 ， 需 要 修改 块 的 时 间 间 隔 ， 也 就 是 spark. streaming. blockInterval 配置 
属性 ， 来 提高 tasks 的 并 行 度 。 

一 般 我 们 建议 将 块 的 时 间 的 最 小 值 设置 为 30 ms， 如 果 再 低 的 话 ，Task 启动 的 开销 就 可 
能 是 个 问题 了 。 

3) 显 式 地 修改 并 行 度 。 另 一 个 可 选 的 方法 是 ， 从 多 输入 流 /Receivers 接收 数据 时 ， 显 
式 地 调用 重 分 区 的 方法 (使 用 inputStream. repartition( < number of partitions > ) ) 。 这 样 可 以 
在 进一步 处 理 数据 之 前 ， 先 把 在 指定 数量 的 结 点 上 接收 到 的 数据 分 发 到 集群 上 。 

(2) 在 数据 处 理 上 的 并 行 度 

如 果 计 算 过 程 中 任何 一 个 Stage 的 任务 并 行 度 不 够 高 的 话 ， 可 能 会 导致 集群 资源 没有 被 
充分 地 利用 起 来 。 

比如 ， 针 对 Key - Value 类 型 的 DStream 的 一 些 聚 合 操作 ， 如 reduceByKey 和 reduce- 
ByKeyAndWindow 等 (与 RDD 类 似 ， 对 应 在 隐 式 转化 的 PairDStreamFunctions 类 中 ) ， 其 分 区 
升 使 用 的 是 默认 的 分 区 医 ， 可 以 通过 配置 spark. default. parallelism JEPE, OR HE AT X ais HY oP 
区 个 数 ， 当 然 ， 也 可 以 通过 指定 API 中 的 并 行 度 参数 来 显示 设置 。 
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(3) 数据 序列 化 。 可 以 通过 优化 序列 化 的 格式 来 减少 数据 序列 化 的 开销 。 在 Spark 
Streaming 中 ， 有 两 类 数据 会 被 序列 化 。 

1) 输入 数据 。 默 认 情 况 下 ， 通 过 Receiver 接收 的 输入 数据 会 被 存储 在 Executor 的 内 存 
中 ， 默 认 的 存储 级 别 为 StorageLevel. MEMORY_AND_DISK_SER_2。 这 是 因为 ,将 数据 序列 
化 成 bytes 可 以 减少 CC 的 开销 ， 而 数据 的 备份 是 为 了 针对 Executor 故障 的 容错 性 。 序 列 化 
数据 明显 是 有 一 定 的 开销 的 ， 首 先 Receiver 必须 将 接收 到 的 数据 反 序列 化 ， 然 后 在 使 用 
Spark 指定 的 序列 化 格式 将 数据 序列 化 。 

2) 在 Spark Streaming 操作 中 的 RDD 持久 化 。 流 计算 过 程 中 产生 的 RDD 可 能 会 被 持久 
化 到 内 存 中 。 比 如 ， 窗 口 类 的 操作 为 了 重复 处 理 数据 ,会 将 数据 持久 化 到 内 存 中 。 这 和 
Spark 内 核 中 RDD 默认 的 持久 化 是 不 一 样 的 ，RDD 默认 是 使 用 StorageLevel. MEMORY ONLY 
进行 持久 化 。 男 外 ， 窗 口 类 的 操作 过 程 中 ， 是 默认 进行 持久 化 的 ， 而 RDD 的 持久 化 是 需要 
人 为 触发 的 。 

这 两 种 情况 下 的 持久 化 一 般 部 应 该 使 用 Kryo 序列 化 ， 这 可 以 减少 CPU 和 内 存 的 开销 。 

比较 特殊 的 情况 下 ， 可 以 将 数据 以 反 序列 化 对 和 象 进行 持久 化 ， 只 要 不 会 引起 高 昂 的 GC 
开销 即 可 。 比 如 ， 如 有 果 你 的 批 间隔 只 设置 成 几 秒 的 话 (对 应 数据 量 比较 小 )， 就 可 以 通过 显 
示 地 设 定 存储 级 别 ， 去 除数 据 持 久 化 中 的 序列 化 。 这 可 以 减少 由 于 序列 化 以 引起 的 CPU JF 
销 (其 实 就 是 CPU 与 内 存 - GC 开销 间 的 一 种 平衡 )， 进 而 提高 性 能 。 

(4) 任务 局 动 开 文 。 如 采 每 秒 钟 启动 的 Task 数 过 高 (比如 ， 每 秒 启动 50 个 或 更 多 
时 ) THE, [6] Slaves 结 点 发 送 Task 的 开销 瓯 比较 严重 了 ， 这 会 导致 很 难 实现 亚 秒 级 的 延 
迟 。 可 以 通过 以 下 修改 来 减低 这 种 开销 。 

1) Task 的 序列 化 。 使 用 Kryo 序列 化 机 制 来 序列 化 Task， 来 减少 Task 的 大 小 ， 因 此 也 
减少 了 回 slaves 发 送 的 时 间 。 

2) 执行 模式 (Execution mode), Task 在 Standalone 模式 或 coarse - grained Mesos 模式 
下 的 启动 时 间 ， 比 在 fine - grained Mesos 模式 下 的 要 少 很 多 。 具 体 可 以 从 Spark 官方 网 站 上 ， 
在 Mesos 上 运行 的 指南 中 获取 更 详细 的 信息 。 

这 些 修改 ， 可 以 将 批 处 理 时 间 减 少 到 几 百 毫秒 ， 进 而 达到 亚 秒 级 的 处 理 。 

2. 设置 正确 的 批 间隔 

要 是 Spark Streaming 应 用 程序 能 稳定 地 在 集群 中 运行 ， 系 统 必须 能 够 尽 可 能 快 地 处 理 接 
收 到 的 数据 。 也 就 是 说 ， 一 旦 批 数 据 生成 就 应 该 尽快 处 理 掉 。 我 们 可 以 从 Streaming 的 Web 
Interface 监控 界面 (WebUI) 上 查看 相关 信息 ， 针 对 Spark Streaming 应 用 程序 ，Spark 自 带 
的 Driver 的 Web Interface 界面 上 会 相应 增加 一 个 Streaming 相关 信息 的 tab 页 面 ， 其 中 包含 了 
两 个 重要 的 性 能 度量 指标 : 

e 处 理 时 间 (Processing Time) : 即 批 数据 的 处 理 时 间 。 

e 调度 延迟 (Scheduling Delay): 即 每 个 批 数据 在 队列 中 等 待 前 一 个 批 数 据 处 理 完 成 所 

等 待 的 时 间 。 

批 处 理 时 间 应 该 小 于 批 数 据 的 时 间 片 ， 这 样 才 不 会 出 现 大 的 调度 延 壕 ， 可 以 避免 导致 越 
来 越 多 的 批 数据 等 竺 处 理 。 

3. 内 存 调 优 

内 存 调 优 方面 的 细节 可 以 参考 Spark 运行 机 制 里 的 内 存 调 优 部 分 。 这 里 主要 讨论 Spark 
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Streaming 应 用 相关 的 一 些 调 优 参数 。 

一 个 Spark Streaming 应 用 对 集群 内 存 大 小 的 需求 ， 在 很 大 程度 上 依赖 于 所 使 用 的 转换 操 
作 类 型 。 比 如 ， 如 果 你 使 用 一 个 窗口 长 度 至 少 10 分 钟 的 窗口 操作 ， 那 么 集群 内 存 必须 足够 
装载 这 10 分 钟 的 数据 。 或 者 ， 如 果 对 大 量 keys 进行 updateStateByKey 操作 的 话 ， 对 内 存 的 
要 求 也 会 极 高 。 相 反 的 ， 如 有 果 你 只 是 简单 地 做 一 种 map — filter - store 操作 的 话 ， 对 内 存 的 需 
求 是 比较 小 的 。 

通常 我 们 使 用 StorageLevel. MEMORY_AND_DISK_SER_2 存储 等 级 来 对 接收 到 的 数据 进 
行 持久 化 ， 因 此 ， 当 内 存 不 足以 装载 数据 时 ,会 将 数据 spill 到 磁盘 中 。 当 然 ， 这 会 降低 流 
计算 的 性 能 ， 因 此 在 执行 流 计算 时 ， 建 议 提供 足够 的 内 存 。 

内 存 调 优 的 为 一 个 方面 是 垃圾 回收 (Garbage Collection, GC), 一 般 流 计算 对 延迟 的 要 
求 很 高 ， 如 果 经 党 由 于 GC 而 导致 大 量 停顿 ， 这 是 不 可 接受 的 。 

下 面 上 一 些 可 以 对 内 存 使 用 和 CC 开销 进行 调 优 的 参数 。 

(1) DStreams 的 持久 化 级 别 。 输 入 数据 和 RDD 默认 情况 下 是 以 序列 化 的 字 节 进行 持久 
化 的 ， 这 可 以 同时 减少 内 存 使 用 和 CC 开销 ， 可 以 参考 前 面 的 数据 序列 化 部 分 。 我 们 可 以 使 
用 Kryo 序列 化 来 进一步 减少 序列 化 后 的 数据 大 小 和 内 存 使 用 。 除 了 使 用 更 好 的 序列 化 右 ， 
还 可 以 加 入 压缩 机 制 ， 可 以 参考 配置 属性 spark. rdd. compress 的 设置 ， 以 CPU 的 时 间 开 销 来 
交互 内 存 使 用 和 GC 开销 。 

(2) 旧 数 据 的 清除 。 默 认 情 况 下 ， 输 入 的 数据 和 DStream 转换 过 程 中 产生 的 、 持 久 化 的 
RDDs， 都 会 自动 被 清除 。Spark Streaming 会 根据 使 用 的 转换 操作 来 决定 何 时 清除 这 些 数据 。 比 
如 窗口 长 度 为 10 分 钟 的 窗口 操作 ，Spark Streaminig 会 保留 最 后 10 分 钟 左右 的 数据 ， 并 积极 丢 
弃 旧 的 数据 。 可 以 通过 配置 参数 streamingContext. remember 为 数据 设置 更 长 的 保留 时 间 。 

(3) CMS 垃圾 收集 器 (CMS Garbage Collector)。 这 里 强烈 建议 使 用 并 行 的 mark - and - 
sweep GC ， 以 便 持续 地 将 GC 相关 的 停顿 保持 中 较 低 的 状态 。 强 烈 建议 在 driver 和 executor 
侧 都 设置 CMS GC， 可 以 分 别 在 spark - submit 中 使 用 - - driver - java - options 设置 driver, 
在 属性 配置 中 使 用 spark. executor. extraJavaOptions 属性 来 设置 executors。 

(4) 其 他 建议 : 为 了 进一步 减少 GC 开销 ， 可 以 尝试 以 下 的 方法 : 

e 持久 化 RDD 时 选择 off - heap 存储 级 别 来 使 用 Tachyon。 

e 使 用 更 多 的 heap sizes 更 小 的 executors。 这 可 以 在 各 个 JVM heap 中 减少 GC 压力 。 


监控 应 用 

一 般 来 说 ， 使 用 Spark Av Ay Web UI 就 能 满足 大 部 分 的 监控 需求 。 对 于 Spark Streaming 
来 说 ， 以 下 两 个 度量 指标 尤为 重要 (在 Batch Processing Statistics 标签 下 ): 

€ Processing Time; 人 处理 每 个 batch 的 时 间 。 

e Scheduling Delay: 每 个 batch 在 队列 中 等 竺 前 一 个 batch 完成 处 理 所 等 待 的 时 间 。 

#7 Processing Time 的 值 一 直 大 于 Scheduling Delay， 或 者 Scheduling Delay 的 值 持 续 增 长 ， 代 
表 系 统 已 经 无 法 处 理 这 样 大 的 数据 输入 量 了 ， 这 时 就 需要 考虑 各 种 优化 方法 来 增强 系统 的 负载 。 

一 个 Spark Streaming 程序 可 以 使 用 StreamingListener 接口 监控 ， 它 允许 你 获得 接收 器 状 
态 和 处 理 时 间 。 注 意 ， 这 是 一 个 开发 人 员 API， 在 未 来 它 可 能 会 改进 。 
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源码 解析 Spark Streaming 的 运行 过 程 


在 生产 环境 下 使 用 Spark Streaming 进行 数据 的 流 计算 过 程 中 ， 一 定 会 遇 到 各 种 各 样 的 技 
术 问 题 导致 运行 出 错 ， 这 时 对 Spark Streaming 的 源 代 码 的 掌握 可 以 帮助 我 们 很 好 的 解决 大 部 
分 问题 ， 因 为 源码 是 一 切 问 题 产 生 的 根源 和 一 切 问 题 的 答案 所 在 。 接 下 来 我 们 借用 Spark 官 
网 提供 的 单词 计数 (Word Count) 的 示例 并 结合 Spark 1. 2 版 本 的 源 代 码 来 分 析 一 下 Spark 
Streaming 的 运行 过 程 。 该 单词 计数 的 示例 通过 Socket 套 接 字 不 断 地 从 远 端 接受 数据 ， 然 后 
以 每 隔 1 s 的 时 间 间 陋 对 数据 进行 单词 计数 的 处 理 ， 示 例 代 码 如 下 : 


import org. apache. spark. _ 


import org. apache. spark. streaming. _ 


import org. apache. spark. streaming. StreamingContext. _ 


val conf = newSparkConf( ). setMaster( " local| 2] " ). setAppName(" NetworkWordCount" ) 


valssc = new StreamingContext ( conf , Seconds ( 1) ) 
val lines = ssc. socketTextStream( " localhost" ,9999) 


val words = lines. flatMap(_. split(" ")) 
import org. apache. spark. streaming. StreamingContext. _ 
val pairs = words. map( word => ( word, 1) ) 


valwordCounts = pairs. reduceByKey(_ + _) 


wordCounts. print( ) 
ssc. start( ) //Start the computation 


ssc. awaitTermination( ) // Wait for the computation to terminate 


Spark Streaming 的 运行 过 程 (作业 提交 和 执行 流程 ) 说 明 如 下 。 
1) StreamingContext 启动 了 JobScheduler, JobScheduler 启动 ReceiverTracker 和 JobCenerator。 
2) ReceiverTracker 是 通过 把 Receiver 包装 成 RDD 的 方式 ， 发 送 到 Executor 端 运行 起 来 
Receiver 起 来 之 后 向 ReceiverTracker 发 送 RegisterReceiver 消息 。 
3) Receiver 把 接收 到 的 数据 ， 通 过 ReceiverSupervisor 保存 。 
4) ReceiverSupervisorImpl 把 数据 写 人 到 BlockGenerator 的 一 个 ArrayBuffer 当中 。 
5) BlockGenerator 内 部 每 个 一 段 时 间 (默认 是 200 ms) 就 把 这 个 ArrayBuffer 构造 成 
Block 添加 到 blocksForPushing 当中 。 

6) BlockGenerator 的 另外 一 条 线程 则 不 断 的 把 加 入 到 blocksForPushing 当中 的 Block 5A 
到 BlockManager 当中 ， 并 向 ReceiverTracker 发 送 AddBlock 消息 。 

7) JobGenerator 内 部 有 个 定时 器 ， 定 期 生成 Job， 通 过 DStream 的 id， 把 ReceiverTracker 
接收 到 的 Block 信息 从 BlockManager 上 抓 取 下 来 进行 处 理 ， 这 个 间隔 时 间 是 我 们 在 实例 化 
StreamingContext 的 时 候 传 进去 的 那个 时 间 ， 在 这 个 例子 里 面 是 Seconds(1)。 


的 


» 
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7.2.1 | StreamingContext 初始 化 并 启动 


1. 首先 初始 化 StreamingContext > 
(1) 对 于 一 个 Spark Streaming 应 用 程序 而 言 ， 第 一 步 要 做 的 事情 就 是 初始 化 Streaming- 
Context, Xj Streaming 初始 化 的 可 以 有 多 个 重 载 方法 ， 在 这 里 我 们 使 用 了 SparkConf 的 对 象 和 
Duration ( 批 处 理 的 时 间 间 隔 ) 作为 参数 传人 Streamingconetext 的 Primary Constructor Po 55 
要 注意 的 是 在 这 里 Checkpoint 默认 被 设置 为 null， 而 在 SparkConf 的 初始 化 中 我 们 设置 了 运 
行 模式 是 LocalL2] ， 也 即 以 本 地 模式 的 两 个 线程 进行 运行 ， 应 用 程序 的 名 字 设 置 为 Network- 
WordCount , 


/Pk sk 
* Create aStreamingContext by providing the configuration necessary for a new SparkContext. 
* @ param conf a org. apache. spark. SparkConf object specifying Spark parameters 
x @ param batchDuration the time interval at which streaming data will be divided into batches 
* / 
def this ( conf; SparkConf , batchDuration ; Duration) = | 


this( StreamingContext. createNewSparkContext ( conf) , null , batchDuration ) 


| 


(2) 与 SparkContext 类 似 ，StreamingContext 在 初始 化 的 过 程 中 也 会 对 自己 的 一 些 成 员 变 
量 就 行 初 始 化 。 在 这 些 成 员 变 量 中 最 重要 的 有 DStreamGraph 、JobScheduler 、StreamingTab 。 

其 中 DStreamGraph 跟 RDD 的 有 向 无 环 图 类 似 ， 就 是 一 个 包含 DStream 之 间 相 互 依赖 的 
有 问 无 环 图 。JobScheduler 的 作用 是 会 定期 查看 DStreamGraph， 然 后 根据 流入 的 数据 生成 
Spark Job, StreamingTab 的 功能 就 是 在 Spark Streaming 的 Job 运行 的 时 候 对 其 进行 监控 。 


private[ streaming] varcheckpointDir: String = | 
if( isCheckpointPresent ) | 
sc. setCheckpointDir( cp. . checkpointDir ) 
cp. . checkpointDir 
| else | 


null 


private| streaming] val scheduler = newJobScheduler( this ) 


private| streaming] valuiTab ; Option[ StreamingTab | = 
if( conf. getBoolean( " spark. ui. enabled" ,true) ) | 
Some ( newStreamingTab ( this ) ) 
| else | 


None 
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2. 调用 StreamContext 的 socketTextStream( ) 方法 生成 一 个 具体 的 InputDStream 

(1) 通过 源码 我 们 可 以 知道 ， 在 socketTextStream ( ) 方 法 中 有 三 个 参数 ， 其 中 hostname 
和 port 分 别 表示 要 连接 的 服务 端的 主机 名 和 端口 号 。 而 storageLevel 的 默认 值 是 StorageLev- 
el. MEMORY AND DISK SER 2, 


/Pk * 
* Create a input stream from TCP source hostname: port. Data is received using 


* a TCP socket and the receive bytes is interpreted as UTF8 encoded ' \n' delimited 


* lines. 
* @ param hostname Hostname to connect to for receiving data 
* @ param port Port to connect to for receiving data 


* @ param storageLevel Storage level to use for storing the received objects 

* ( default : StorageLevel. MEMORY AND DISK SER, 2) 

* / 

defsocketTextStream ( 
hostname ; String, 
port : Int, 
storageLevel : StorageLevel = StorageLevel. MEMORY_AND_DISK_SER_2 
) : ReceiverInputDStream[ String | = | 


socketStream| String | ( hostname , port , SocketReceiver. bytesToLines , storageLevel ) 


| 


(2) 继续 跟踪 socketTextStream 方法 体 中 的 socketStream 方法 ， 发 现在 此 处 初始 化 了 一 个 
SocketInputDStream 对 象 ， 该 对 象 是 负责 接收 远 端 流 进来 的 数据 的 。 


/** 


* Create a input stream from TCP source hostname: port. Data is received using 
* a TCP socket and the receive bytes itinterepreted as object using the given 


* converter. 


* @ param hostname Hostname to connect to for receiving data 
* @ param port Port to connect to for receiving data 
* @ param converter Function to convert the byte stream to objects 


* @ param storageLevel Storage level to use for storing the received objects 

* @ tparam T Type of the objects received (after converting bytes to objects ) 

*/ 

defsocketStream| T ; ClassTag | ( 
hostname ; String, 
port : Int, 
converter; (InputStream) => Iterator[ T], 
storageLevel : StorageLevel 
) : ReceiverInputDStream| T] = | 


newSocketInputDStream| T | ( this , hostname, port , converter , storageLevel ) 
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(3) 下 面 我 们 来 仔细 看 SocketInputDStream 这 个 类 ， 首 先 它 继承 自 ReceiverInputD- 
Stream, Mj ReceiverInputDStream 继承 自 InputDStream ，InputDStream 当然 继承 自 DStream Y o 

另外 注意 ，S$ocketInputDStream 重 写 了 ReceiverInputDStream 中 的 getReceiver 方法 ， 这 个 
方法 是 用 来 生成 接收 顺 的 。 这 个 方法 的 调用 在 后 面 ReceiveLauncher 的 startReceivers ( ) 方 法 > 
rp ncs] AE Ge SCA o 


private| streaming | 


classSocketInputDStream| T ; ClassTag | ( 
@ transientssc, :StreamingContext , 
host ; String, 
port: Int, 
bytesToObjects ; InputStream => Iterator[ T | , 
storageLevel : StorageLevel 


)extends ReceiverInputDStream[ T ] (ssc_) | 


defgetReceiver( ) : Receiver| T] = | 
newSocketReceiver( host , port , bytesToObjects , storageLevel ) 


| 


(4) 在 getReceiver 方法 内 部 初始 化 了 一 个 SocketReceiver 实例 ， 我 们 可 以 和 完 打开 这 个 
类 ， 简 单 看 看 内 部 的 实现 。 在 这 个 类 中 最 重要 的 事情 就 是 开启 应 给 线程 接收 数据 。 这 里 具体 
怎么 接受 数据 我 们 先 不 讲 。 


def getReceiver( ) ; Receiver[ T] = | 


new SocketReceiver( host , port , bytesToObjects , storageLevel ) 


private[ streaming | 
classSocketReceiver| T : ClassTag | ( 
host ; String, 
port : Int, 
bytesToObjects : InputStream => Iterator[ T | , 
storageLevel : StorageLevel 


)extends Receiver| T | ( storageLevel) with Logging | 


def onStart( ) | 
//Start the thread that receives data over a connection 
new Thread( " Socket Receiver" ) | 
setDaemon( true) 
override def run( ) | receive( ) | 


|. start( ) 
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| 


到 此 我 们 暂且 认为 经 过 以 上 步 又 ， 创 建 了 一 个 InputDStream 对 象 ( 因为 程序 的 真正 执行 
是 由 StreamingContext 的 start 方法 触发 的 ) o 

再 往 下 ， 就 是 对 InputDStream 进行 fatMap 、map 、reduceByKey print 的 连续 操作 ， 这 里 
和 RDD 的 transformation 操作 类 似 ， 这 里 不 再 详细 分 析 。 

3. 调用 StreamingConntext 的 start 方法 

调用 ssc. start( ) 来 触发 作业 的 执行 ， 从 这 里 开始 ， 一 系列 重要 的 事情 开始 发 生 了 。 


/* x 


* Start the execution of the streams. 
* 
* @ throwsSparkException if the context has already been started or stopped. 
* / 
def start( ) ; Unit = synchronized | 
if( state == Started ) | 
throw newSparkException ( " StreamingContext has already been started" ) 
| 
if( state == Stopped) | 
throw newSparkException( " StreamingContext has already been stopped" ) 


| 

validate( ) 

sparkContext. setCallSite( DStream. getCreationSite( ) ) 
scheduler. start( ) 


state = Started 


| 


继续 跟踪 scheduler. start 方法 ， 这 里 的 schedule 就 是 在 前 面 StreamingContext 里 初始 化 的 
JobScheduler , 

4. scheduler. start( ) 开启 调度 器 

(1) 在 这 个 start 方法 里 开启 很 多 重要 组 件 的 启动 。 


def start( ) ; Unit = synchronized | 


if( eventActor != null) return //scheduler has already been started 


logDebug( " Starting JobScheduler" ) 
// 开 启 一 个 Actor 来 处 理 JobScheduler 的 JobStarted , JobCompleted 等 事件 
eventActor = ssc. env. actorSystem. actorOf( Props( new Actor | 
def receive - | 
case event ; JobSchedulerEvent => processEvent( event ) 


| 
|) , "JobScheduler" ) 


// 开 启 StreamingListenerBus 的 监听 器 
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listenerBus. start ( ) 


receiverTracker = new ReceiverTracker( ssc ) 


// FPA FE WAS HJ We ZS ReceiverTracker 

receiverTracker. start ( ) 

// 开 启 Job 生成 器 JobGenerator © 
jobGenerator. start( ) 

logInfo( " Started JobScheduler" ) 


| 


(2) 这 里 我 们 首先 来 看 receiverTracker start( ) 方 法 内 部 的 实现 。 它 主要 做 了 两 件 事 情 ， 
第 一 是 初始 化 了 一 个 ReceiverTrackerActor 类 ， 第 二 是 启动 了 ReceiverLauncher。 


private[ streaming | 


classReceiverTracker( ssc ; StreamingContext , skipReceiverLaunch ; Boolean = false ) extends Logging | 


private val receiverInputStreams = ssc. graph. getReceiverInputStreams ( ) 
private val receiverInputStreamlds = receiverInputStreams. map | _. id} 
private valreceiverExecutor = new ReceiverLauncher( ) 
private valreceiverInfo = new HashMap| Int, ReceiverInfo | with SynchronizedMap| Int, ReceiverInfo | 
private val receivedBlockTracker = new ReceivedBlockTracker ( 

ssc. sparkContext. conf, 

ssc. sparkContext. hadoopConfiguration , 

receiverInputStreamlds , 

ssc. scheduler. clock, 

Option( ssc. checkpointDir ) 
) 


private vallistenerBus = ssc. scheduler. listenerBus 


//actor is created when generator starts. 
//This not being null means the tracker has been started and not stopped 


private var actor; ActorRef = null 


/** Start the actor and receiver execution thread. * / 
def start( ) 2 synchronized | 
if( actor != null) | 


throw newSparkException( " ReceiverTracker already started" ) 


if( | receiverInputStreams. isEmpty ) | 
// 初 始 化 ReceiverTrackerActor 实例 
actor = ssc. env. actorSystem. actorOf( Props( new ReceiverTrackerActor ) , 
" ReceiverTracker" ) 
// F Ji ReceiverLauncher ,这 里 的 receiverExecutor 是 ReceiverLauncher 的 实例 


if( | skipReceiverLaunch ) receiverExecutor. start ( ) 
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Spark 


logInfo( " ReceiverTracker started" ) 


m 


(3) 打开 ReceiverTrackerActor 类 ， 可 以 看 到 它 主 要 负责 RegisterReceiver, AddBlock , 


ReportError, DeregisterReceiver 四 个 事件 的 处 理 。 其 中 RegisterReceiver 事件 是 人 处理 运行 在 
Worker 的 Executor 中 的 Receiver 的 注册 ，ReportError 是 报告 错误 ，DeregisterReceiver 是 注销 


Receiver, 


/*** Actor to receive messages from the receivers. * / 
private class ReceiverTrackerActor extends Actor | 
def receive = | 
caseRegisterReceiver( streamld , typ, host , receiverActor) => 
registerReceiver( streamld ,typ host , receiverActor , sender ) 
sender ! true 
caseAddBlock( receivedBlockInfo) => 
sender ! addBlock ( receivedBlockInfo ) 
caseReportError( streamId , message, error) => 
reportError ( streamld , message , error ) 
caseDeregisterReceiver( streamld , message , error) => 
deregisterReceiver( streamId , message , error ) 


sender ! true 


| 
| 


(4) 我 们 接着 看 receiverExecutor. start () 的 实现 。 注 意 ， 这 里 的 receiverExecutor 是 Re- 
cevierLauncher 类 的 实例 化 。 可 以 看 到 最 终 要 调用 的 是 startReceivers( ) 方 法 。 


/** This thread class runs all the receivers on the cluster. */ 
classReceiverLauncher | 
@ transient valenv = ssc. env 
@ transient val thread = new Thread( ) | 
override def run( ) | 
try | 
SparkEnv. set( env) 
startReceivers( ) 
| catch | 


case ie: InterruptedException => logInfo( " ReceiverLauncher interrupted" ) 


def start( ) | 
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thread. start( ) 


| e 
(5) 这 里 的 startReceivers( ) 方 法 是 一 个 重量 级 的 方法 ， 在 其 内 部 将 Reciver 集合 转换 成 
了 RDD， 并 定义 了 一 个 作用 于 RDD 的 函数 startReceiver， 最 后 提交 作业 给 集群 执行 。 这 里 需 
要 反复 强调 的 一 点 是 Receiver 的 真正 执行 是 在 Worker 结 点 的 Executor 中 。 


J x 


* Get the receivers from the ReceiverInputDStreams , distributes them to the 
* worker nodes as a parallel collection, and runs them. 
* / 
private defstartReceivers( ) | 
val receivers = receiverInputStreams. map( nis => | 
// 这 里 调用 我 们 前 面 初始 化 过 的 SocketInputDstream 的 getReceiver( ) 方 法 ,然后 生成 一 个 SocketRe- 
ceiver 对 象 ,也 就 是 获得 配置 的 接收 需 
valrevr = nis. getReceiver( ) 
revr. setReceiverld( nis. id) 


revr 


|) 


// 这 里 查看 所 有 的 接收 上 需 是 否 有 优先 选择 的 Worker 25 ji 


val hasLocationPreferences = receivers. map( . preferredLocation. isDefined). reduce(_ && _) 


// 在 这 里 把 Receiver 集合 转换 成 RDD ,这 也 是 Spark Streaming 的 巧妙 之 处 
valtempRDD = 
if( hasLocationPreferences ) | 
val receiversWithPreferences = receivers. map( r => ( r, Seq( r. preferredLocation. get) ) ) 
ssc. sc. makeRDD[ Receiver| _ | | ( receiversWithPreferences ) 
| else | 


ssc. sc. makeRDD( receivers, receivers. size) 


valcheckpointDirOption = Option( ssc. checkpointDir ) 
val serializable HadoopConf = 


new SerializableWritable( ssc. sparkContext. hadoopConfiguration ) 


// Function to start the receiver on the worker node 
valstartReceiver = (iterator; [terator| Receiver| _] ]) => | 
if( | iterator. hasNext) | 
throw newSparkException ( 


"Could not start receiver as object not found. " ) 
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val receiver = iterator. next( ) 
val supervisor = new ReceiverSupervisorImpl ( 
receiver , SparkEnv. get , serializableHadoopConf. value , checkpointDirOption ) 
supervisor. start( ) 
supervisor. awaitTermination( ) 
| 
//Run the dummy Spark job to ensure that all slaves have registered. 
//'This avoids all the receivers to be scheduled on the same node. 
if( | ssc. sparkContext. isLocal ) | 
ssc. sparkContext. makeRDD(1 to 50,50). map(x => (x,1) ). reduceByKey(_ + _,20). collect( ) 


// Distribute the receivers and start them 
logInfo( " Starting " + receivers. length +" receivers" ) 
ssc. sparkContext. runJob( tempRDD , ssc. sparkContext. clean ( startReceiver ) ) 


logInfo( " All of the receivers have been terminated" ) 


CA 数据 接收 


1. startReceiver 数据 接收 函数 

在 上 一 小 节 最 后 的 startReceiver 方法 里 ， 我 们 知道 Receivers 集合 (所 有 的 SocketReceiver 
接收 器 ) 被 转换 成 RDD 发 送 到 集群 的 各 个 Worker 结 点 去 执行 ， 当 然 并 行 度 是 接收 器 的 数量 。 
而 且 还 特意 为 它 定 义 了 一 个 作用 于 其 上 的 startReceiver 函数 。 下 面 我 们 先 看 一 下 这 个 startRe- 
ceiver PRAY, 

(1) 这 个 函数 的 作用 就 是 在 Worker 结 点 的 Executor 中 启动 Receiver， 并 遍历 所 有 的 Re- 
ceiver， 同 时 初始 化 并 开启 了 一 个 ReceiverSupervisorImpl 对 象 来 来 监督 管理 Receiver; 


// Function to start the receiver on the worker node 
valstartReceiver = ( iterator ; Iterator[ Receiver[ _] ]) => | 
if( | iterator. hasNext) | 
throw newSparkException( 
"Could not start receiver as object not found. " ) 
| 
val receiver = iterator. next( ) 
val supervisor = new ReceiverSupervisorImpl ( 
receiver , SparkEnv. get, serializableHadoopConf. value , checkpointDirOption ) 
supervisor. start( ) 


supervisor. awaitTermination( ) 


| 
(2) EREK ReceiverSupervisorlmpl 的 start( ) 方 法 看 看 都 做 了 什么 ， 可 以 发 现 这 个 start Jy 
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法 实际 调用 的 是 ReceiverSupervisorImpl 的 父 类 ReceiverSupervisor 的 start 方法 ， 它 调用 了 on- 
Start 方法 和 startReceiver 方法 。 


/* * Start the supervisor * / 


def start( ) | > 


// ReceiverSupervisorImpl 类 已 经 override 了 onStart( ) 方 法 
onStart( ) 


startReceiver( ) 


| 
(3) 我 们 先 跟踪 ReceiverSupervisorImpl 的 onStart 方法 ， 它 启动 了 BlockGenerator。 


override protected def onStart( ) | 


blockGenerator. start( ) 


| 


(4) ReceiverSupervisor 的 startReceiver 方法 主要 做 了 两 件 事情 : 第 一 ， 调 用 receiv- 
er. onStart( ) 方 法 开始 接受 数据 (我 们 这 里 的 receiver 是 一 开始 配置 好 的 SocketRecevier) ; 第 
二 ， 调 用 ReceiverSupervisorImpl 的 onReceiverStart 方法 ， 发 送 RegisterReceiver 消息 给 Driver 
报告 自己 启动 成 功 了 。 


/** Start receiver */ 


defstartReceiver( ) ; Unit = synchronized | 

try | 
logInfo( " Starting receiver" ) 
receiver. onStart( ) 
logInfo( " Called receiver onStart" ) 
onReceiverStart ( ) 
receiverState = Started 

| catch | 
case t: Throwable => 


stop( " Error starting receiver " + streamld , Some(t) ) 


| 


(5) 我 们 先 看 一 下 ReceiverSupervisorImpl 的 onReceiverStart 方法 的 实现 。 在 里 面 先 是 构 
造 了 一 个 RegisterReceiver 样 例 类 ， 人 然后 调用 trackerActor. ask ( msg) ( askTimeout ) 把 消息 发 送 


给 Driver。 


override protected defonReceiverStart( ) | 
val msg = RegisterReceiver( 
streamld , receiver. getClass. getSimpleName , Utils. local HostName( ) ,actor) 
val future = trackerActor. ask ( msg) ( askTimeout ) 


Await. result( future , askTimeout ) 
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其 中 trackerActor 的 实现 如 下 ， 可 以 看 出 它 是 Driver 的 actRef。 


/** RemoteAkka actor for the ReceiverTracker * / 
private valtrackerActor - | 
val ip = env. conf. get( " spark. driver. host" ," localhost" ) 
val port = env. conf. getInt( " spark. driver. port" ,7077 ) 
val url = " akka. tcp :// 96 s@ 96 s : 96 s/user/ ReceiverTracker" . format( 
SparkEnv. driverActorSystemName , ip , port ) 


env. actorSystem. actorSelection( url) 


| 


2. SocketReceiver. onStart 方法 的 实现 
我 们 已 经 知道 ReceiverSupervisor 的 startReceiver 方法 做 的 第 一 件 事 就 是 调用 SocketRe- 
ceiver. onStart 方法 来 接受 数据 。 
(1) Æ onStart ( ) 方 法 里 会 单独 开 一 个 线程 来 接受 数据 。 
def onStart( ) | 


//Start the thread that receives data over a connection 


new Thread( " Socket Receiver" ) | 


setDaemon( true ) 
override def run( ) | receive( ) | 


|. start( ) 


| 
(2) 继续 跟踪 里 面 的 receive( ) 方 法 来 看 它 是 如 何 接受 数据 ， 并 存放 到 哪里 的 。 


/*** Create a socket connection and receive data until receiver is stopped * / 


def receive( ) | 
var socket : Socket = null 
try | 
logInfo( " Connecting to " + host +" :" + port) 
socket = new Socket( host, port ) 
logInfo( " Connected to " + host +" ;" + port) 
// AIRI Sig PELE 
valiterator 2 bytesToObjects( socket. getInputStream( ) ) 
while( ! isStopped && iterator. hasNext ) | 
store( iterator. next) /循环 地 去 存储 
| 
logInfo( " Stopped receiving" ) 
restart ( " Retrying connecting to " + host +" :" + port) 
| catch | 
case e; java. net. ConnectException => 
restart ( " Error connecting to " + host +" :" + port,e) 
case t: Throwable 2» 


restart ( " Error receiving data" ,t) 
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| finally | 
if( socket != null) | 
socket. close( ) 


logInfo( " Closed socket to " + host +" ;" + port) > 


| 


(3) 接着 跟踪 store (iterator. next) 方法 的 调用 ， 它 会 继续 调用 ReceiverSupervisorImpl 的 
pusSingle 方法 来 存储 数据 。 


/Pk sk 
* Store a single item of received data to Spark's memory. 
* These single items will be aggregated together into data blocks before 
* being pushed into Spark's memory. 
*/ 
def store( dataltem ; T) | 
// 这 里 的 executor 是 ReceiverSupervisorlmpl 的 实例 


executor. pushSingle( dataltem ) 


| 


(4) 这 时 ， 我 们 在 ReceiverSupervisorImpl 的 pusSingle 方法 内 部 会 看 到 blockGenera- 
tor. addData( data), mj blockGenerator 是 BlockGenerator 的 实例 ， 并 且 在 前 面 的 代码 跟踪 时 


ReceiverSupervisorImpl 的 onStart 方法 已 经 启动 了 BlockGenerator。 所 以 现在 存储 的 重心 都 在 这 
个 BlockGenerator 类 中 。 


/** Divides received data records into data blocks for pushing inBlockManager. */ 
private valblockGenerator = new BlockGenerator( new BlockGeneratorListener | 
defonAddData( data; Any , metadata; Any) ; Unit = | | 


defonGenerateBlock ( blockId;StreamBlockId) ; Unit = | | 


defonError( message ; String , throwable ; Throwable ) | 


reportError( message , throwable ) 


defonPushBlock ( blockId ; StreamBlockld , array Buffer : ArrayBuffer[ _ ] ) | 
push ArrayBuffer ( array Buffer , None , Some( blockId ) ) 
| 


| , streamld , env. conf) 


/** Push a single record of received data into block generator. */ 
defpushSingle( data; Any) | 
// 这 里 的 blockGenerator 是 BlockGenerator 类 的 实例 
blockGenerator. addData( data ) 
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3. RecuringTimer 定时 器 的 实现 
在 BlockGenerator 的 addData( ) 方 法 中 ， 我 们 看 到 它 会 把 接受 的 数据 源源 不 断 地 追加 到 
currentBuffer 里 ， 这 里 的 currentBuffer 的 类 型 是 一 个 ArrayBuffer。 这 样 currentBuffer 变 成 了 一 


个 数据 块 。 


/Pk sk 
* Push a single data item into the buffer. All received data items 
* will be periodically pushed intoBlockManager. 
*/ 
defaddData( data; Any) ; Unit = synchronized | 
waitToPush( ) 


currentBuffer + = data 


| 


(1) 我 们 再 看 一 下 BlockGenerator 的 start 方法 。 它 主要 做 了 两 件 事情 ， 第 一 是 启动 一 个 
RecuringTimer 定时 器 ， 将 当前 currentBuffer 绥 存 中 的 数据 按照 用 户 在 Spark Streaming 应 用 程 
序 里 定义 的 批 处 理 时 间 间 隔 封 效 成 一 个 Block 数据 块 ， 然 后 存放 到 BlockGenerator 的 block- 
ForPush 队列 中 。 第 二 是 局 动 一 个 blockPushingThread 线程 ， 不 断 地 将 BlockForPush 队列 中 的 
数据 块 传递 给 BlockManager。 


private| streaming] classBlockGenerator( 


listener ; BlockGeneratorListener , 
receiverld : Int, 
conf ; SparkConf 

) extendsRateLimiter( conf) with Logging | 


private case class Block (id:StreamBlockld , buffer; ArrayBuffer| Any | ) 


private val clock = newSystemClock( ) 
private valblockInterval = conf. getLong( " spark. streaming. blockInterval" ,200 ) 
private valblockIntervalTimer = 
newRecurringTimer( clock , blockInterval , updateCurrentBuffer , " BlockGenerator" ) 
private valblockQueueSize = conf. getInt ( " spark. streaming. blockQueueSize" ,10) 
private valblocksForPushing = new ArrayBlockingQueue[ Block | ( blockQueueSize ) 
private valblockPushingThread = new Thread( ) | override def run( ) | keepPushingBlocks( ) | | 


@ volatile private varcurrentBuffer = new ArrayBuffer| Any | 


@ volatile private var stopped = false 


/** Start block generating and pushing threads. * / 
def start( ) | 
/开局 一 个 定时 需 , 将 当前 缓存 咒 中 的 数据 按 用 户 定义 的 时 间 间 隅 封装 成 一 个 Block 
blockIntervalTimer. start( ) 


// 开 启 一 个 线程 ,不 断 地 将 数据 块 传递 给 BlockManager 
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blockPushingThread. start( ) 
logInfo( " Started BlockGenerator" ) 


nm 


(2) 我 们 可 以 跟 进 blockIntervalTimer. start( ) , Æ— FEMS ae TATE c 


/P sk 
* Start at the earliest time it can start based on the period. 
* / 
def start( ) : Long = | 
start ( getStartTime( ) ) 


| 
继续 查看 start( getStartTime( ) ) 方 法 ， 在 这 个 方法 里 调用 thread. start( ) 开启 了 一 个 线程 
来 执行 。 
/** 
* Start at the given start time. 
*/ 
def start ( startTime ; Long) : Long = synchronized | 


nextTime - startTime 


thread. start( ) 


logInfo( " Started timer for " + name +" at time " + nextTime) 


nextTime 


| 
我 们 继续 跟踪 下 去 ， 在 新 开局 的 线程 里 会 调用 loop 方法 。 


" + name) | 


private val thread = new Thread ( " RecurringTimer — 
setDaemon( true ) 


override def run( ) | loop} 


| 
(3) 这 里 是 定时 器 真正 做 实事 的 地 方 ， 在 while 循环 里 面 每 隔 一 段 时 间 就 会 执行 call 
back 方法 ，callback 方法 是 在 初始 化 RecuringTimer 对 象 时 传人 的 一 个 参数 ， 这 个 参数 是 
BlockGenerator 的 updateCurrentBuffer 方法 。 


/P sk 
* Repeatedly call the callback every interval. 
* / 
private def loop( ) | 
try | 
while( ! stopped) | 
clock. waitTillTime ( nextTime ) 


callback ( nextTime ) 
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prevTime = nextTime 
nextTime + = period 


" 


logDebug( " Callback for " + name +" called at time 


| 


| catch | 


+ prevTime ) 


case e;InterruptedException => 


| 


(4) 下 面 我 们 把 重心 转移 到 BlockGenerator 的 updateCurrentBuffer 方法 的 实现 中 ， 我 们 
已 经 看 到 currentBuffer 里 面 的 数据 会 先 赋 值 给 newBlockBuffer, newBlockBuffer 会 被 封装 成 一 
个 Block, 然后 这 个 Block 会 被 放 进 blockForPushing 队列 ( ArrayBlockingQueue) 中 。 到 此 ， 
定时 器 的 运行 流程 解析 告 一 段 段落 ， 下 面 我 们 分 析 blockForPushing 队列 中 的 数据 是 如 何 被 存 
放 到 BlockManager 中 去 的 。 


/** Change the buffer to which single records are added to. */ 
private defupdateCurrentBuffer( time ; Long) ; Unit = synchronized | 
try | 
valnewBlockBuffer = currentBuffer 
currentBuffer = new ArrayBuffer| Any | 
if( newBlockBuffer. size » 0) | 
valblockId = StreamBlockId ( receiverld ,time — blockInterval ) 
//newBlockBuffer 会 被 封装 成 一 个 Block 
valnewBlock = new Block( blockId , newBlockBuffer ) 
listener. onGenerateBlock ( blocklId ) 


blocksForPushing. put( newBlock) — //put is blocking when queue is full 
logDebug( " Last element in " + blockId +" is " + newBlockBuffer. last) 


| 
| catch | 
case ie; InterruptedException => 
logInfo( " Block updating timer thread was interrupted" ) 
case e; Exception 2» 


reportError( " Error in block updating thread" ,e) 


| 


4. blockPushingThread 线程 启动 后 的 运行 流程 

我 们 回 到 BlockGenerator 的 start 方法 里 ， 看 一 下 调用 blockPushingThread. start( ) 后 的 运 
行 流程 。 

(1) blockPushingThread. start( ) 开启 的 是 一 个 线程 ， 这 个 线程 里 调用 了 BlockGenerator 的 
keepPushingBlocks( ) 方 法 。 


private valblockPushingThread = new Thread( ) | override def run( ) | keepPushingBlocks( ) | | 


(2) 我 们 继续 跟 进 keepPushingBlocks( ) 方 法。 在 这 个 方法 内 部 ， 会 不 断 地 从 blockFor- 
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Pushing 队列 中 取出 数据 块 ， 然 后 调用 pushBlock 方法 。 


/** Keep pushing blocks to theBlockManager. */ 
private defkeepPushingBlocks( ) | 
logInfo( " Started block pushing thread" ) > 
try | 
while( ! stopped) | 
Option ( blocksForPushing. poll ( 100, TimeUnit. MILLISECONDS) ) match | 
// 这 里 通过 pushBlock ( ) 方 法 不 断 地 从 blockForPushing 队列 中 取出 数据 块 
case Some( block) => pushBlock ( block ) 


case None => 


| 
// Push out the blocks that are still left 


logInfo( " Pushing out the last " + blocksForPushing. size( ) +" blocks" ) 
// 这 里 通过 一 个 循环 条 件 判 断 blockForPushing 是 否 为 空 , 如 果 不 为 空 ,会 在 退出 之 前 ,把 剩 下 的 
数据 块 也 输出 
while( ! blocksForPushing. isEmpty) | 
logDebug( " Getting block " ) 
val block = blocksForPushing. take( ) 
pushBlock ( block ) 
logInfo( " Blocks left to push " + blocksForPushing. size( ) ) 
| 
logInfo( " Stopped block pushing thread" ) 
| catch | 
case ie; InterruptedException => 
logInfo( " Block pushing thread was interrupted" ) 
case e; Exception 2» 


reportError ( " Error in block pushing thread" ,e) 


| 


(3) 在 pushBlock 方法 里 ， 会 继续 调用 listener. onPushBlock (block. id, block. buffer) , 


其 中 这 里 的 listener 是 在 ReceiversupervisorImpl 中 初始 化 BlockGenerator 时 传 给 它 的 参数 
BlockGeneratorListener 对 象 。 


private defpushBlock ( block ; Block) | 
listener. onPushBlock ( block. id, block. buffer) 
logInfo( " Pushed block " + block. id) 


| 


(4) 可 以 看 到 ， 在 ReceiverSupervisorImpl 类 中 初始 化 BlockGenerator 的 时 候 传 人 了 
BlockGeneratorListener 对 象 ， 在 BlockGeneratorListener 初始 化 的 时 候 也 override 了 原来 的 on- 
PushBlock 方法 。 
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/** Divides received data records into data blocks for pushing inBlockManager. */ 
private valblockGenerator = new BlockGenerator( new BlockGeneratorListener | 


defonAddData ( data; Any , metadata ; Any) ; Unit = | | 
defonGenerateBlock ( blockId : StreamBlockld ) ; Unit = | | 


defonError( message ; String , throwable ; Throwable ) | 


reportError( message , throwable ) 


defonPushBlock ( blockId ; StreamBlockld , array Buffer : ArrayBuffer[ _ ] ) | 
pushArrayBuffer ( array Buffer , None , Some( blocklId ) ) 
| 


| ,streamld , env. conf) 


(5) 在 BlockGeneratorListener $A 4, E], S A m (override) 自己 的 onPushBlock 方法 ， 
在 onPushBlock 方法 里 会 继续 调用 ReceiversupervisorImpl 的 pushArrayBuffer( ) 方 法 ， 我 们 进入 
pushArrayBuffer( ) 方 法 继续 跟踪 ， 它 会 继续 调用 pushAndReportBlock ( ) 方 法 。 


/** Store anArrayBuffer of received data as a data block into Spark's memory. */ 
defpush ArrayBuffer ( 
array Buffer; ArrayBuffer| _ | , 
metadataOption ; Option[ Any | , 
blockIdOption ; Option [ StreamBlocklId | 
) | 
pushAndReportBlock ( ArrayBufferBlock ( arrayBuffer) , metadataOption ,blockIdOption ) 
| 


(6) 在 pushAndReportBlock ( ) 方法 中 ， 主 要 做 了 两 件 事情 : 第 一 ， 把 数据 块 传递 给 
BlockManager 存储 ; 第 二 是 调用 trackerActor. ask ( AddBlock ( blockInfo ) ) ( askTimeout ) 发 送 
AddBlock 消息 给 Driver 的 ReceivertrackerActor, iH 4] ReceiverTracker 将 哪些 Block 存储 到 了 
BlockManager 中 。 


/** Store block and report it to driver * / 
defpushAndReportBlock ( 
receivedBlock ; ReceivedBlock , 
metadataOption ; Option[ Any | , 
blockIdOption ; Option| StreamBlockld | 
JA 
valblockId = blockIdOption. getOrElse ( nextBlockId ) 
valnumRecords = receivedBlock match | 
case ArrayBufferBlock ( arrayBuffer) => arrayBuffer. size 


case _=> -1 
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val time = System. currentTimeMillis 
valblockStoreResult = receivedBlockHandler. storeBlock ( blockId , receivedBlock ) 
logDebug( s" Pushed block $ blockId in $ | (System. currentTimeMillis ~ time) | ms" ) 


valblockInfo = ReceivedBlockInfo( streamId , numRecords , blockStoreResult ) © 
val future = trackerActor. ask( AddBlock ( blockInfo ) ) ( askTimeout ) 
Await. result( future , askTimeout ) 
logDebug( s" Reported block $ blockId" ) 
| 


(7) 我 们 跟踪 receivedBlockHandler. storeBlock ( ) 方法， 看 它 是 如 何 把 Block 存储 到 
BlockManager 中 的 。 这 里 的 receivedBlockHandler 的 实例 会 根据 SparkEnv 中 配置 的 Key 选项 " 
spark. streaming. receiver. writeAheadLog. enable” 的 实际 值 来 决定 。 


private val receivedBlockHandler: ReceivedBlockHandler = | 
if( env. conf. getBoolean( " spark. streaming. receiver. writeAheadLog. enable" ,false) ) | 
if( checkpointDirOption. isEmpty ) | 
throw newSparkException ( 
" Cannot enable receiver write — ahead log without checkpoint directory set. " + 
"Please usestreamingContext. checkpoint( ) to set the checkpoint directory. " + 
"See documentation for more details. " ) 
| 
new WriteAheadLogBasedBlockHandler( env. blockManager , receiver. streamld , 
receiver. storageLevel , env. conf, hadoopConf , checkpointDirOption. get) 
| else | 


new BlockManagerBasedBlockHandler( env. blockManager , receiver. storageLevel ) 


| 


(8) 这 里 实现 了 存储 block 到 block manager 以 及 写 日 志 的 过 程 ， 我 们 可 以 看 看 Write 
AheadLogBasedBlockHandler 的 storeBlock 方法 如 何 把 数据 块 传递 给 BlockManager 的 。 


/** 
* This implementation stores the block into the block manager as well as a write ahead log. 
* It does this in parallel , using Scala Futures , and returns only after the block has 
* been stored in both places. 
*/ 
defstoreBlock ( blockId : StreamBlocklId , block : ReceivedBlock ) ; ReceivedBlockStoreResult = | 


//Serialize the block so that it can be inserted into both 
valserializedBlock = block match | 
caseArray BufferBlock ( arrayBuffer) => 
blockManager. dataSerialize ( blockld , arrayBuffer. iterator ) 
caselteratorBlock ( iterator) => 


blockManager. dataSerialize ( blockld , iterator ) 


p 
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caseByteBufferBlock ( byteBuffer) 2» 
byteBuffer 
case _ => 


throw new Exception( s" Could not push $ blockId to block manager, unexpected block type" ) 


//Store the block in block manager 
val storeInBlockManagerFuture = Future | 
valputResult = 
blockManager. putBytes ( blockld , serializedBlock , storageLevel , tellMaster = true) 
if( | putResult. map| _. _1}. contains( blockId) ) | 
throw newSparkException ( 


s" Could not store $ blockId to block manager with storage level $ storageLevel" ) 


//Store the block in write ahead log 
val storeInWriteAheadLogFuture = Future | 


logManager. writeToLog( serializedBlock ) 


// Combine the futures , wait for both to complete , and return the write ahead log segment 
valcombinedFuture = for | 
. <— storeInBlockManagerFuture 
fileSegment « - storeInWriteAheadLogFuture 
| yieldfileSegment 
val segment = Await. result ( combinedFuture , blockStoreTimeout ) 
WriteAheadLogBasedStoreResult ( blockId , segment ) 
| 


(9) 对 于 ReceiverTracker， 当 它 接受 到 ReceiversupervisorImpl 发 送 过 来 的 AddBlock 消息 
后 ， 会 调用 addBlock( ) 方 法 进行 处 理 。 


/* * Actor to receive messages from the receivers. */ 
private class ReceiverTrackerActor extends Actor | 
def receive - | 
caseRegisterReceiver( streamld , typ, host , receiverActor) => 
registerReceiver( streamld ,typ , host , receiverActor , sender ) 
sender ! True 
//ReceiverTracker 的 Actor 收 到 AddBlock 消息 后 ,会 调用 addBlock( ) 方 法 进行 处 理 
caseAddBlock( receivedBlockInfo) => 
sender ! addBlock( receivedBlockInfo ) 
caseReportError( streamld , message , error) => 


reportError ( streamld , message , error ) 
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caseDeregisterReceiver( streamld , message , error) => 
deregisterReceiver ( streamld , message , error) 


sender ! true 
| e 
| 
继续 跟踪 addBlock( ) 方 法 ， 它 会 继续 调用 ReceivedBlockTracker 的 addBlock ( ) 方 法 。 


/** Add new blocks for the given stream */ 
private defaddBlock ( receivedBlockInfo ; ReceivedBlockInfo ) : Boolean = | 
receivedBlockTracker. addBlock ( receivedBlockInfo ) 


| 


(10) 在 ReceivedBlockTracker 的 addBlock( ) 方 法 中 ， 会 调用 getReceivedBlockQueue( ) 77 
法 把 接收 到 还 未 处 理 的 Block 信息 放 人 到 streamIdToUnallocatedBlockQueues 这 个 HashMap 中 。 


/** Add received block. This event will get written to the write ahead log( if enabled). * / 
defaddBlock ( receivedBlockInfo ; ReceivedBlockInfo) : Boolean = synchronized | 
try | 
writeToLog( Block AdditionEvent ( receivedBlockInfo) ) 
getReceivedBlockQueue ( receivedBlockInfo. streamld ) + = receivedBlockInfo 
logDebug( s" Stream $ | receivedBlockInfo. streamId | received " + 
s"block $ | receivedBlockInfo. blockStoreResult. blockId | " ) 
true 
| catch | 
case e; Exception 2» 
logError( s" Error adding block $ receivedBlockInfo" ,e) 


false 


| 
下 面 是 ReceivedBlockTracker 的 getReceivedBlockQueue 方法 的 实现 。 


/** Get the queue of received blocks belonging to a particular stream */ 


private def getReceivedBlockQueue( streamld ; Int) : ReceivedBlockQueue = | 


streamIdToUnallocatedBlockQueues. getOrElseUpdate ( streamld , new ReceivedBlockQueue ) 


前 面 分 析 了 数据 的 接收 和 保存 ， 接 收 的 这 些 数 据 必 须 经 过 处 理 才 有 意义 ， 那 么 已 经 存储 
的 数据 被 真正 的 处 理 又 是 什么 触发 的 呢 ? 

(1) 在 这 里 我 们 首先 把 视线 转移 到 我 们 一 人 Spark Streaming 的 官方 示例 代码 
中 去 ， 我 们 知道 在 生成 SocketInputStream 对 象 后 ， 进行 flatMap, map, reduceByKey , 
print 等 一 系列 操作 ， 在 这 里 我 们 首先 要 看 一 下 这 个 的 print( ) 方 法 。 这 里 特别 要 强 
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调 一 点 ， 这 里 的 fatMap 、map 、reduceByKey print 方法 都 是 DStream 单独 实现 的 ， 跟 RDD 
中 的 方法 完全 不 同 。 

1) print 方法 是 DStreamGraph 的 最 后 一 个 操作 ， 很 像 RDD 的 action 操作 。 在 这 个 方法 
中 生成 了 一 个 ForEachDStream 实例 对 象 ， 并 定义 了 一 个 作用 于 它 的 函数 foreachFunc， 同 时 
在 最 后 还 调用 了 ForEachDStream 的 register( ) 771 [5] DStreamGraph 注册 。 


/Pk sk 
* Print the first ten elements of each RDD generated in thisDStream. This is an output 
* operator,so thisDStream will be registered as an output stream and there materialized. 
*/ 
def print( ) | 
defforeachFunc = ( rdd; RDD[ T ] , time: Time) => | 
val first] 1 = rdd. take( 11) 


println(" ------------------------------------------- 2 
println( " Time;" + time) 

println( ”一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 1) 
first] 1. take( 10). foreach( println) 

if( firstl 1. size > 10) println(". .. " ) 


println( ) 


| 
// 初 始 化 ForEachStream 实例 对 象 并 调用 它 的 register 方法 向 DStreamGraph 注册 
newForEachDStream( this , context. sparkContext. clean ( foreachFunc ) ) . register( ) 


| 


2) 我 们 进入 ForEachDStream 的 register( ) 方 法 里 (这 里 需要 在 它 的 父 类 DStream 中 找 )， 
看 它 的 具体 实现 。 


/Pk sk 
* Register this streaming as an output stream. This would ensure thatRDDs of this 
* DStream will be generated. 
* / 
private[ streaming] def register( ) : DStream| T] = | 
ssc. graph. addOutputStream( this ) 
this 


| 


3) 继续 跟踪 DStreamGraph 的 addOutputStream( ) 方 法 ， 可 以 看 到 新 初始 化 的 ForEachD- 
Stream 已 经 被 添加 到 DStreamGraph 的 一 个 ArrayBuffer| DStream| _] | P, 


defaddOutputStream ( outputStream ; DStream[ _ | ) | 
this. synchronized | 
outputStream. setGraph( this ) 


outputStreams + = outputStream 
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(2) 因为 DStreamGraph 在 数据 的 处 理 中 占有 重要 地 位 ， 所 以 我 们 在 前 面 先 把 与 它 有 关 
的 内 容 分 析 了 。 下 面 我 们 需要 再 次 转移 视线 到 JobGenerator 的 start 方法 开启 的 地 方 ， 因 为 
JobGenerator 是 Job 生成 袁 。 在 一 开始 我 们 讲 JobScheduler 的 start 方法 时 ,我 们 只 是 顺 着 Re- 
ceiverTracker 的 启动 讲 了 数据 的 接收 。 此 时 ， 我 们 沿 着 JobGenerator. start( ) 这 条 线 来 讲 数据 > 
的 处 理 。 


def start( ) ; Unit = synchronized | 


if( eventActor != null) return //scheduler has already been started 


logDebug( " Starting JobScheduler" ) 
eventActor = ssc. env. actorSystem. actorOf( Props( new Actor | 
def receive - | 
case event ; JobSchedulerEvent = > processEvent( event ) 


| 
|) ,"JobScheduler" ) 


listenerBus. start( ) 
receiverTracker = new ReceiverTracker( ssc ) 


receiverTracker. start( ) 


jobGenerator. start( ) // JFF JA Job 生成 器 JobGenerator 
logInfo( " Started JobScheduler" ) 


| 
1) JobGenerator 的 start 方法 中 ， 首 先 会 生成 一 个 Actor 来 负责 接收 并 处理 JobGenerator- 
Event。 接 着 会 调用 ssc. isCheckpointPresent 来 判断 StreamingContext 是 否 已 经 checkpoint， 如 
果 是 ， 就 接着 上 次 checkpoint 后 的 数据 进行 处 理 。 这 里 我 们 只 拿 没 有 checkpoint 的 情况 来 
讲解 。 


/* * Start generation of jobs */ 
def start( ) ; Unit = synchronized | 
if( eventActor != null) return //generator has already been started 
// 生 成 一 个 Actor 实例 对 象 (eventActor) 负责 接收 处 理 JobGeneratorEvent 事件 
eventActor = ssc. env. actorSystem. actorOf( Props( new Actor | 
def receive - | 
case event: JobGeneratorEvent => ^ processEvent( event) 
| 
|) ," JobGenerator" ) 
if( ssc. isCheckpointPresent ) | 
restart ( ) 
| else | 


startFirstTime( ) 
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2) 我 们 可 以 先 简 单 看 一 下 JobGenerator 的 Actor 接受 并 处 理 的 消息 有 : GenerateJobs 
(time) , ClearMetadata( time) , DoCheckpoint( time) 和 ClearCheckpointData( time) 。 


/*** Processes all events * / 
private defprocessEvent( event ; JabGeneratorEvent ) | 


" + event) 


logDebug( " Got event 

event match | 
caseGenerateJobs ( time) => generateJobs( time ) 
caseClearMetadata( time) => clearMetadata( time ) 
caseDoCheckpoint( time) => doCheckpoint( time) 


caseClearCheckpointData( time) => clearCheckpointData ( time) 


| 


3) 我 们 继续 跟 进 JobGenerator 的 start 方法 中 的 startFirstTime 方法 ， 在 这 个 方法 中 主要 
做 了 三 件 事 : 第 一 是 初始 化 了 定时 需 的 开局 时 间 ; 第 二 是 启动 DStreamGraph; 第 三 是 启动 定 
时 器 timer, 


/* * Starts the generator for the first time */ 


private defstartFirstTime( ) | 
valstartTime = new Time( timer. getStartTime( ) ) 
graph. start( startTime — graph. batchDuration ) 
timer. start( startTime. milliseconds ) 
logInfo( " Started JobGenerator at " + startTime) 


| 
4) 先 看 timer. getStartTime 方法 ， 它 会 计算 出 来 下 一 个 定时 右 周 期 的 到 期 时 间 ， 计 算 公 
xk: (math. floor( clock. currentTime. toDouble/period) + 1). toLong * period， 以 当前 的 时 间 / 除 
以 间 阳 时间， 再 用 math. floor 求 出 它 的 上 一 个 整数 〈 即 上 一 个 周期 的 到 期 时 间 点 ) ， 加 上 L, 
再 乘 以 周期 就 等 于 下 一 个 周期 的 到 期 时 间 。 


J x 


* Get the time when this timer will fire if it is started right now. 
* The time will be a multiple of this timer's period and more than 
* current system time. 
* / 
defgetStartTime( ) : Long - | 
(math. floor( clock. currentTime. toDouble / period) + 1). toLong * period 


| 


5) 对 于 DStreamGraph 的 启动 ， 我们 主要 关注 一 下 它 的 启动 时 间 : 启动 时 间 = startTime 
- graph. batchDuration。 这 里 可 以 看 出 它 的 启动 时 间 比 定时 紫 要 早 一 个 时 间 间 隔 。 而 对 于 它 
的 start 方法 ， 主 要 是 对 前 面向 它 注 册 过 的 ForEachDStream 进行 一 些 操 作 。 


def start( time; Time ) | 


this. synchronized | 
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if( zeroTime != null) | 
throw new Exception ( " DStream graph computation already started" ) 


| 

zeroTime = time 

startTime = time © 
outputStreams. foreach( _. initialize ( zeroTime ) ) 

outputStreams. foreach ( _. remember( rememberDuration ) ) 


outputStreams. foreach( _. validate ) 


inputStreams. par. foreach( _. start( ) ) 


| 


6) JobGenerator 的 start 方法 中 最 关键 的 就 是 定时 需 timer 的 启动 了 。 我 们 可 以 看 一 下 它 
的 定义 。 
val clock = | 
valclockClass = ssc. sc. conf. get( 
" spark. streaming. clock" ," org. apache. spark. streaming. util. SystemClock" ) 


Class. forName( clockClass). newInstance( ). asInstanceOf| Clock | 


| 


private val timer = newRecurringTimer( clock , ssc. graph. batchDuration. milliseconds, 


longTime => eventActor ! GenerateJobs( new Time( longTime) ) ," JobGenerator" ) 


7) 继续 跟踪 timer. start 方法 ， 其 实 这 里 跟 我 们 讲 数 据 接收 时 的 定时 器 的 运行 原理 一 样 ， 
都 是 要 开 一 个 线程 来 每 隔 一 段 时 间 发 送 消 息 。 这 里 是 向 JobGenerator 的 Actor 发 送 Gemerator- 
Jobs 消息 。 


/Pk sk 
* Start at the given start time. 
* / 
def start ( startTime ; Long) : Long = synchronized | 
nextTime = startTime 


thread. start( ) 


logInfo( " Started timer for " + name +" at time " + nextTime) 


nextTime 


| 


8) 在 JobGenerator 的 processEvent 方法 里 ， 对 于 接受 到 的 GeneratorJobs 消息 ， 会 调用 
JobGenerator 的 generateJobs 方法 继续 处 理 。 


/* * Processes all events */ 
private defprocessEvent( event ; JabGeneratorEvent ) | 
logDebug( " Got event " + event) 
event match | 
caseGenerateJobs ( time) => generateJobs( time ) 


caseClearMetadata( time) => clearMetadata( time ) 
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caseDoCheckpoint( time) => doCheckpoint( time) 


caseClearCheckpointData( time) => clearCheckpointData ( time) 


| 


(3) 在 JobGenerator 的 generateJobs 方法 中 ， 主 要 做 了 五 件 事 情 : 第 一 ， 调 用 Recevier- 
Tracker 的 allocateBlocksToBatch 方法 分 配 接受 的 未 处 理 的 block 给 batch; 第 二 是 调用 DStre- 
amGraph 的 generateJobs( ) 方 法 生成 Job; 第 三 是 获取 接受 到 的 Block 信息 ; 第 四 是 调用 Job- 
Scheduler 的 submitJobSet( ) 方 法 提交 作业 ; 第 五 是 提交 完 作 业 后 ， 发 送 一 个 DoCheckpoint JH 
息 给 JobGenerator， 然 后 调用 JobGenerator 的 doCheckpoint 进行 Checkpoint 操作 。 


/*** Generate jobs and perform checkpoint for the given'time'. */ 
private defgenerateJobs( time ; Time) | 
//Set theSparkEnv in this thread ,so that job generation code can access the environment 
// Example: BlockRDDs are created in this thread , and it needs to access BlockManager 
// Update : This is probably redundant afterthreadlocal stuff in SparkEnv has been removed. 
Spark Env. set( ssc. env) 
Try| — //allocate received blocks to batch 
// 调 用 RecevierTracker 的 allocateBlocksToBatch 方法 分 配 接 受 的 未 处 理 的 block 给 batch 
jobScheduler. receiverTracker. allocateBlocksToBatch ( time ) 
// 调 用 DStreamGraph 的 generateJobs ( ) 方 法 生成 Job 
graph. generateJobs ( time) //generate jobs using allocated block 
| match 1/ 获取 接受 到 的 Block 信息 
case Success( jobs) 2» 
valreceivedBlockInfos = 
jobScheduler. receiverTracker. getBlocksOfBatch( time). map Values | _. toArray | 
// 调 用 JobScheduler 的 submitJobSet ( ) 方 法 提交 作业 
jobScheduler. submitJobSet ( JobSet ( time , jobs , receivedBlockInfos ) ) 
case Failure(e) => 
jobScheduler. reportError( " Error generating jobs for time " + time,e) 
| 
// 发 送 一 个 DoCheckpoint 消息 给 JobGenerator, 然 后 调用 JobGenerator 的 doCheckpoint 
// 进 行 Checkpoint 操作 
eventActor ! DoCheckpoint( time) 


| 


1) 首先 看 RecevierTracker 的 allocateBlocksToBatch 方法 如 何 分 配 接受 的 未 处 理 的 block 
给 batch 。 


/** Allocate all unallocated blocks to the given batch. * / 
def allocateBlocksToBatch ( batchTime ; Time) ; Unit = | 
if( receiverInputStreams. nonEmpty ) | 


receivedBlockTracker. allocateBlocksToBatch ( batchTime ) 
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| 
然后 继续 调用 receivedBlockTracker. allocateBlocksToBatch 方法 进行 分 配 。 


/Pk x 
* Allocate all unallocated blocks to the given batch. e 
* This event will get written to the write ahead log( if enabled). 
* / 
def allocateBlocksToBatch ( batchTime ; Time) : Unit = synchronized | 
if( lastAllocatedBatchTime == null || batchTime > lastAllocatedBatchTime ) | 
valstreamIdToBlocks = streamIds. map | streamld => 
( streamld , getReceivedBlockQueue ( streamld ). dequeueAll ( x => true) ) 
|. toMap 
valallocatedBlocks = AllocatedBlocks ( streamIdToBlocks ) 
writeToLog( BatchAllocationEvent( batchTime , allocatedBlocks ) ) 
timeToAllocatedBlocks( batchTime ) = allocatedBlocks 
lastAllocatedBatchTime = batchTime 
allocatedBlocks 
| else | 
throw newSparkException( s" Unexpected allocation of blocks," + 


s" last batch = $ lastAllocatedBatchTime , batch time to allocate = $ batchTime ") 


| 


2) 查看 DStreamGraph 的 generateJobs( ) 方 法 如 何 生 成 Job。 在 这 个 方法 内 部 会 通过 output- 
Stream 的 generateJob 方法 生成 Job。 这 里 的 outputStream 是 我 们 前 面 提 到 的 ForEachDStream ; 


defgenerateJobs ( time; Time) :Seq[ Job] = | 


" 


logDebug( " Generating jobs for time " 4 time) 
val jobs = this. synchronized | 
outputStreams. flatMap ( outputStream => outputStream. generateJob( time ) ) 


| 


logDebug( " Generated " + jobs. length + " jobs for time 


" + time) 
jobs 


| 
3) 我 们 继续 跟踪 ForEachDStream 的 generateJob 方法 。 在 这 个 方法 中 ,会 调用 DStream 


的 getOrComputer( ) 方 法 生成 RDD， 然 后 再 定义 一 个 作用 于 Job 的 jobFunc， 最 后 会 初始 化 一 
个 Job， 并 把 定义 好 的 jobFune 函数 做 为 参数 传 给 Jobo 


override defgenerateJob( time:Time) :Option[ Job ] = | 
parent. getOrCompute( time ) match | 
case Some( rdd) => 
valjobFunc = ( ) => | 
ssc. sparkContext. setCallSite ( creationSite ) 


foreachFunc ( rdd , time ) 


> 
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| 
Some( new Job( time, jobFunc ) ) 


case None => None 


| 
4) 我 们 继续 看 DStream 的 getOrComputer( ) 方 法 看 它 如 何 生 成 RDD。 


/** 


* Get the RDD corresponding to the given time ;either retrieve it from cache 
* or compute — and - cache it. 
* / 
private[ streaming] defgetOrCompute( time; Time) : Option] RDD[ T] | = | 
// 这 里 的 generatedRDDs 是 一 个 HashMap ,如 果 可 以 从 它 的 内 部 得 到 需要 的 RDD ,就 不 用 再 计算 
generatedRDDs. get( time). orElse | 
//Compute the RDD if time is valid(e. g. correct time in a sliding window) 
//of RDD generation, else generate nothing. 
if( isTimeValid (time) ) | 
//Set the thread - local property for call sites to thisDStream's creation site 
//such thatRDDs generated by compute gets that as their creation site. 
//Note that this 'getOrCompute ' may get called from another DStream which may have 
//set its own call site. So we store its call site in a temporary variable, 
//set thisDStream's creation site, generate RDDs and then restore the previous call site. 
valprevCallSite = ssc. sparkContext. getCallSite( ) 
ssc. sparkContext. setCallSite( creationSite ) 
// 每 个 DStream 调用 自己 实现 的 compute 方法 重新 计算 得 出 RDD, compute 方法 被 Receiv- 
erInputDStream 类 中 的 compute 重新 override 了 
valrddOption = compute ( time ) 
ssc. sparkContext. setCallSite( prevCallSite ) 


rddOption. foreach | case newRDD => 
// Register the generated RDD for caching andcheckpointing 
if( storageLevel != StorageLevel. NONE) |//ix & RDD 的 存储 策略 
newRDD. persist( storageLevel ) 
logDebug( s" Persisting RDD $ | newRDD. id} for time $ time to $ storageLevel" ) 
| 
if( checkpointDuration != null &&( time — zeroTime). isMultipleOf 
( checkpointDuration ) ) | 
newRDD. checkpoint( ) 
logInfo( s" Marking RDD $ | newRDD. id} for time $ time for checkpointing" ) 
| 
// 把 生成 的 RDD 保存 到 generatedRDDs 这 个 HashMap 中 ,方便 再 次 调用 
generatedRDDs. put ( time ,newRDD ) 
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rddOption 
| else! 


None 
| Ə 
| 
| 
5) 我 们 再 次 回 到 JobGenerator 的 generateJobs 方法 中 ， 在 这 个 方法 中 ,通过 调用 job- 
Scheduler. receiverTracker. getBlocksOfBatch 把 Receivertracker 中 接收 到 的 Block 信息 拿 出 来 ， 


保存 到 receivedBlockInfos 中 这 个 Map 中 ， 然 后 把 receivedBlockInfos 作为 参数 传 给 JobSet。 我 
们 可 以 看 看 receiverTracker. getBlocksOfBatch 的 调用 。 


/** Get the blocks for the given batch and all input streams. */ 

defgetBlocksOfBatch ( batchTime : Time) : Map| Int, Seq| ReceivedBlockInfo | | = | 
receivedBlockTracker. getBlocksOfBatch ( batchTime ) 

| 


继续 跟踪 receivedBlockTracker. getBlocksOfBatch 的 调用 。 


/** Get the blocks allocated to the given batch. / 
defgetBlocksOfBatch ( batchTime : Time) : Map| Int, Seq| ReceivedBlockInfo | | = synchronized | 
timeToAllocatedBlocks. get( batchTime). map | _. streamIdToAllocatedBlocks | . 
getOrElse ( Map. empty ) 


| 


6) 对 于 调用 JobScheduler 的 submitJobSet( ) 方 法 提交 作业 ， 我 们 可 以 看 一 下 它 的 实现 。 
在 这 个 方法 里 ， 最 重要 的 一 行 代码 是 jobSet. jobs. foreach ( job => jobExecutor. execute( new Job- 
Handler(job) ) ) , Zi Jj jobSet 里 所 有 的 jobs， 然 后 通过 jobExecutor 这 个 线程 池 把 所 有 的 
Job 进行 提交 。 

defsubmitJobSet ( jobSet ; JobSet) | 
if( jobSet. jobs. isEmpty ) | 
celata C" Nodobecadded for dime att me 
| else | 
jobSets. put ( jobSet. time , jobSet ) 
jobSet. jobs. foreach ( job => jobExecutor. execute( new JobHandler( job) ) ) 
logInfo( " Added jobs for time " + jobSet. time) 


| 
JobExecutor 作为 JobScheduler 的 成 员 变 量 进行 初始 化 ， 可 以 看 到 它 是 一 个 线程 池 。 
private valjobExecutor = Executors. newFixedThreadPool ( numConcurrentJobs ) 


我 们 再 看 下 JobHandler 这 个 类 ， 它 主要 做 两 件 事情 : 第 一 是 在 Job 运行 前 后 分 别 发 送 
JobStarted 消息 和 JobCompleted 消息 给 JobScheduler。 第 二 是 Job 的 运行 。 
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private classJobHandler( job ; Job) extends Runnable | 
def run( ) | 
eventActor ! JobStarted( job ) 
job. run( ) 
eventActor | JobCompleted( job) 
| 
| 


调用 job. run( ) 在 遍历 BlockRDD 的 时 候 ， 在 compute PEZ P XU, Block。 然 后 、 打 印 
这 个 RDD FR, 

(4) 再 次 回 到 一 开始 我 们 提供 的 NetworkWordCount 示例 ， 在 最 后 会 调用 ssc. awaitTer- 
mination( ) 等 竺 执行 停止 。 


/* s 
* Wait for the execution to stop. Any exceptions that occurs during the execution 
* will be thrown in this thread. 
*/ 

defawaitTermination( ) | 


waiter. waitForStopOrError( ) 


| 


MA — 
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| 文本 数据 操作 实例 演示 


本 实例 是 实时 统计 本 地 文本 文件 的 单词 个 数 ， 在 /root/sparkTest/test 目录 下 每 隔 21 s 统 
计 一 下 新 添加 的 文件 中 各 个 以 空格 分 割 的 单词 的 个 数 。 此 案例 常用 来 以 准 实时 的 方式 对 互联 
网 网 站 的 流量 进行 不 同 粒 度 的 统计 。 步 又 如 下 : 

(1) 建立 名 称 为 “SparkStreamingExample” 的 项 目 工 程 ， 如 图 7-8 所 示 。 


SparkStreamingExample 


图 7-8 建立 项 目 工程 
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(2) 在 WordCount. scala 文件 中 具体 实现 实时 统计 本 地 文本 文件 的 单词 个 数 的 功能 。 


package spark streaming example 
import org. apache. spark. SparkConf 
import org. apache. spark. streaming. | Seconds , StreamingContext | > 
import org. apache. spark. streaming. StreamingContext. _ 
/P sk 
* Created by root on 4/11/15. 
* /objectWordCount | 
def main( args; Array | String | ) | 
valsparkConf = new SparkConf( ). setAppName( " WordCount" ). setMaster( "local[ 3 |" ) 
// Create the context 
val spark. ssc = new StreamingContext( sparkConf, Seconds ( 21 ) ) 
valsparkLines = spark. ssc. textFileStream( " /root/ sparkTest/ test" ) 
valspark Words = sparkLines. flatMap(. . split(" ")) 
valsparkWordCounts = sparkWords. map( x => (x,1) ). reduceByKey(_ + _) sparkWordCounts. print( ) 
spark ssc. start( ) 


spark. ssc. awaitTermination( ) 


| 


(3) 接 下 来 对 上 述 代码 进行 解析 。 

1) 首先 初始 化 并 构建 了 一 个 SparkConf 类 的 对 象 sparkConf， 使 用 其 中 的 setMaster 和 
setAppName 方法 将 这 个 驱动 程序 的 Master 设 为 本 地 模式 ， 将 其 名 称 设 为 WordCount。 然 后 使 
用 这 个 SparkConf 类 对 象 初 始 化 了 一 个 StreamingContext 类 ， 将 之 前 的 配置 项 传递 给 spark _ 
ssc ， 这 样 就 可 以 控制 驱动 程序 了 。setMaster("locall3j]" ) 表示 驱动 程序 为 本 地 模式 的 同时 还 
表示 开启 了 三 个 线程 ， 对 应 sparkStreaming 的 操作 一 般 都 需要 开局 大 于 两 个 的 线程 ， 因 为 必 
须要 有 一 个 线程 监听 数据 流 ， 还 有 有 其 他 的 线程 进行 数据 流 的 处 理 操作 。 

2) StreamingContext( sparkConf,Seconds(21) ) 的 第 二 个 参数 Seconds(21 ) 表示 每 隔 21s 对 
数据 流 进行 切割 一 次 。 

3) spark. ssc. textFileStream ( " /root/sparkTest/test" ) 表示 从 本 地 文件 系统 的 /root/spark- 
Test/test 目录 下 读 取 文件 ， 一 旦 这 个 目录 下 有 新 的 文件 进来 的 时 候 StreamingContext 的 实例 
对 象 spark_ssc 就 会 读 入 这 个 文件 并 生成 名 称 为 sparkLines 的 RDD, sparkLines 对 文本 中 的 
一 行使 用 空格 对 单词 进行 切 分 sparkLines. flatMap(_. split(^ ")), ， 切 分 了 之 后 就 开始 进行 单 
词 统计 sparkWords. map(x => (x,1) ).reduceByKey(_+_)。 最 后 把 每 一 个 时 间 段 内 增加 的 单 
词 统 计 完 成 之 后 打印 出 来 sparkWordCounts. print( ) 。 

4) spark_ssc. awaitTermination( ) 表示 等 待 数据 流 的 终结 ，sparkStreaming 会 一 直 处 于 等 
待 监听 的 状态 。 

(4) 打开 /root/sparkTest/test 目录 查看 统计 结果 ， 如 图 7-9 所 示 。 

此 时 发 现在 /root/sparkTest/test 目录 没有 任何 文件 ， 这 时 在 IntelliJ IDEA 里 运行 Word- 
Count. scala 文件 来 测试 是 否 会 有 单词 计数 后 的 结果 值 。 运 行 结果 如 下 : 


! Spark 
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File Edit View Go Bookmarks Help 


Devices ' f Home sparkTest test 
Fi Floppy Disk 


Bookmarks 


= Home 
ki Desktop 

iE Documents 
ij Downloads 


[dk 7-9  /root/sparkTest/test 目录 


15/04/13 01:31:06 INFOMemoryStore ; Block broadcast, O stored as values in memory ( estimated 
15/04/13 01:31:06 INFODAGScheduler;Submitting 2 missing tasks from Stage 2 ( ShuffledRDD|4 ] at 
combineByKey at ShuffledDStream. scala :42 ) 

15/04/13 01:31:06 INFOTaskSchedulerlmpl : Adding task set 2.0 with 2 tasks 

15/04/13 01:31:06 INFOTaskSetManager ; Starting task 0.0 in stage 2. O( TID 1, localhost , PROCESS _ 
LOCAL,948 bytes) 

15/04/13 01: 31: 06 INFO BlockFetcherlterator $ BasicBlockFetcherlterator: maxBytesInFlight: 
50331648 , targetRequestSize ; 10066329 

15/04/13 01:31:06 INFO BlockFetcherlterator $ BasicBlockFetcherlterator; Getting 0 non — empty 
blocks out of O blocks 

15/04/13 01:31:06 INFO BlockFetcherlterator $ BasicBlockFetcherlterator: Started 0 remote fetches in 
11 ms 

15/04/13 01:31:06 INFO Executor; Finished task 1.0 in stage 2. O( TID 2). 822 bytes result sent 
to driver 

15/04/13 01:31:06 INFODAGScheduler ; Stage 2( take at DStream. scala :608 ) finished in 0. 035 s 
15/04/13 01:31:06 INFOSparkContext: Job finished :take at DStream. scala :608 , took 0. 09356594 s 
15/04/13 01:31:06 INFOJobScheduler: Finished job streaming job 1428859866000 ms. 0 from job set of 
time 1428859866000 ms 


KI TE/ root/sparkTest/test 目录 下 没有 任何 文件 ， 所 以 没有 统计 到 任何 单词 。 现 在 我 
{{] 7E/root/sparkTest/test 目录 新 建 一 个 testSparkStreamingWordCount. txt 文件 ， 如 图 7-10 
所 示 。 

testSparkStreamingWordCount. txt 文件 里 分 别 有 五 个 字母 A、 五 个 字母 B、 五 个 字母 C、 
五 个 字母 D， 各 自 都 使 用 空格 分 开 。 在 IntelliJ IDEA 里 运行 WordCount scalad 的 结果 如 下 : 


[d] 7-10 新建 一 个 testSparkStreamingWordCount. txt 文件 


15/04/13 01 :41:15 INFOTaskSchedulerlmpl : Removed TaskSet 118. 0, whose tasks have all completed, 
from pool 

15/04/13 01:41:15 INFODAGScheduler:Stage 118(take at DStream. scala :608 ) finished in 0. 007 s 
15/04/13 01 :41:15 INFOSparkContext; Job finished :take at DStream. scala :608 , took 0. 020002081 s 
15/04/13 01:41:15 INFOContextCleaner : Cleaned broadcast 60 

15/04/13 01 :41:15 INFOJobScheduler: Finished job streaming job 1428860475000 ms. 0 from job set of 
time 1428860475000 ms 

15/04/13 01:41:15 INFOShuffledRDD : Removing RDD 144 from persistence list 

15/04/13 01:41:15 INFOBlockManager; Removing RDD 144 

15/04/13 01:41:15 INFOMappedRDD ; Removing RDD 143 from persistence list 

15/04/13 01:41:15 INFOBlockManager; Removing RDD 143 

15/04/13 01:41:15 INFOFlatMappedRDD : Removing RDD 142 from persistence list 

15/04/13 01:41:15 INFOBlockManager; Removing RDD 142 

15/04/13 01:41:15 INFOMappedRDD : Removing RDD 141 from persistence list 

15/04/13 01:41:15 INFOBlockManager; Removing RDD 141 

15/04/13 01:41:15 INFOUnionRDD ; Removing RDD 140 from persistence list 

15/04/13 01:41:15 INFOBlockManager; Removing RDD 140 

15/04/13 01 :41:15 INFOFileInputDStream ; Cleared 1 old files that were older than 1428860454000 ms: 
1428860433000 ms 

15/04/13 01:41:15 INFOJobScheduler: Total delay:0.315 s for time 1428860475000 ms ( execution; 
0. 182 s) 


可 以 看 到 现在 已 经 统计 出 了 在 /root/sparkTest/test 目录 新 加 入 的 testSparkStreamingWord- 
Count. txt 文件 中 的 各 个 字母 的 个 数 : A、B、C、D 分 别 有 5 个 。 


> 网 络 数据 操作 实例 一 一 销售 模拟 器 演示 


现在 要 实现 这 样 一 个 功能 : 服务 佛 端 不 断 监 听 是 否 有 客户 器 连接 上 来 ， 如 果 有 客户 珊 连 
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接 上 来 就 不 断 的 回 客户 端 发 送 数据 。 对 于 网 络 数据 的 操作 ， 当 前 的 业务 场景 有 商品 的 实时 推 
荐 以 及 日 志 的 实时 查询 等 。 

(1) 首先 建立 一 个 能 够 读 取 文 件 的 模拟 器 ,模拟 絮 能 够 把 文件 的 每 一 行 随机 的 发 送 。 
用 户 可 以 设 定 发 送 的 时 间 和 端口 。 

(2) 在 SparkStreamingExample 工程 下 新 建 一 个 用 于 实现 销售 模拟 器 的 Scala 文件 SaleDe- 
viceSimulation. scala， 如 图 7-11 所 示 。 


v EaSparkStreamingExample 


[7-11 新 建 一 个 SaleDeviceSimulation. scala 


SaleDeviceSimulation. scala 文件 里 的 代码 实现 如 下 : 


package spark_streaming_example 
import java. io. | PrintWriter } 
import java. net. ServerSocket 
import scala. 1o. Source 
/六 六 
* Created by root on 4/16/15. 
*/ 


object SaleDeviceSimulation | 


def main( args; Array | String | ) | 
if( args. length !2 3) | 
System. err. println( " Usage: < filename > < port > < millisecond >" ) 


System. exit( 1) 


val filename = args(0) 
val lines = Source. fromFile( filename). getLines. toList 


valfilerow = lines. length 


val listener = new ServerSocket( args( 1 ). toInt ) 
while( true ) | 


val socket = listener. accept( ) 
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new Thread( ) | 
override def run = | 
println( " Got client connected from;" + socket. getInetAddress ) 
val out = newPrintWriter( socket. getOutputStream( ) ,true ) 
while( true ) | e 
Thread. sleep( args(2). toLong) 
val content = lines ( index( filerow ) ) 
println( content ) 
out. write( content +' \n' ) 
out. flush( ) 
| 


socket. close( ) 


| 


|. start( ) 


| 
def index( length: Int) = | 
import java. util. Random 


valrdm = new Random 


rdm. nextInt( length ) 


| 


| 


(3) 实现 销售 模拟 需 的 代码 解析 如 下 。 

首先 从 main 方法 的 args 数组 中 获取 文件 的 名 称 val filename = args(0)， 然 后 使 用 
Source. fromFile( filename). getLines. toList 把 这 个 文件 读 进 来 并 存 人 List 集合 里 面 ， 接 着 使 用 
lines. length 计算 出 这 个 文件 总 共有 多 少 行 ， 最 后 使 用 val listener = new ServerSocket ( args ( 1 ) 
. tont) 开局 一 个 服务 器 socket 的 监听 右 ， 一旦 有 其 他 客户 端 连接 上 来 的 时 候 服 务 絮 就 开始 问 
客户 端 发 送 数据 。socket. getInetAddress 表示 获取 客户 端的 地 址 ，socket. getOutputStream ( ) 表 
示 疝 客户 端 发 送 数据 。Thread. sleep (args(2). toLong) 表示 服务 器 向 客 户 端 发 送 的 时 间 间 隔 。 
lines( index( filerow) ) 表示 读 取 整 个 文件 中 的 某 一 行 ( 茶 一 行 是 一 个 随机 数 ， 随 机 数 是 由 方 
法 “index(length:Int) ”来 生成 ) 。 

(4) 为 了 方便 运行 SaleDeviceSimulation. scala 这 个 销售 模拟 器 ， 我 们 需要 把 SaleDeviceS- 
imulation. scala 打 成 一 个 jar 包 后 使 用 Shell 交互 命令 来 运行 ， 打 包 过 程 如 下 : 

1) 首先 选择 project structure 选项 卡 中 的 artifacts 选项 组 ， 如 图 7-12 所 示 。 

2) 然后 点 击 “+” 号 ， 在 弹出 的 选项 框 中 选择 Jar 选项 一 From modules with dependen- 
cies， 在 弹出 的 Creat Jar from Modules 对 话 框 中 Main Class 选择 SparkStreamingExample 工程 下 
的 spark. streaming. example 包 下 的 SaleDeviceSimulation. scala 文件 ，Module 表示 但 是 jar 包 的 
名 称 ， 这 里 jar 包 的 名 称 是 SparkStreamingExample， 如 图 7-13 所 示 。 
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Project Structure 


& => + — 


Project Settir 
Project 


Empty 


Modules Æ JavaFx Application * = " 
Libraries B avax Prelaader From modules with dependencies... 


Facets Æ Android Application 


Artifacts & Other 


Platform Setti 
SDKs 
Global Librarie: 
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选择 project structure 中 的 Artifacts 


Create Jar from Modules 


Module: (Fa SparkStreamingExample v | 


Main Class: | spark streaming example.SaleDeviceSimulation 


Jar files from libraries 


@ extract to the target jar 


O copy to the output directory and link via manifest 


Directory For META-INF/MANIFEST. MF: 


| /usr/local/spark/ait-2.1 .0/SparkStreamingExample/src 


- | Include tests 


Help 


Gs | cove! 


图 7-13 jar 包 的 名 称 


jar 包 存 放 的 位 置 为 : /usr/local/spark/git — 2. 1. O/SparkStreamingExample/out/artifacts/ 
SaleDeviceSimulation ， 如 图 7-14 所 示 。 


Project Structure 


G > t- Q Artifact 'SaleDeviceSimulation' 


- Project Setti 
Project 

Modules 

Libraries 

Facets 


ArtiFacts 


Platform Sett 


Name: |aleDeviceSimulation| Type: | Jar EN" 


Output directory: |/usr/local/spark/git-2.1.0/SparkStreamingf| di 


[| Bulld on make 


Output Layout | Pre-processing Post-processing | 


[ | Run Ant target «none» 


SDKs 
Global Librarie erie 
[| Show content of elements 
| 2 errors Found 
Help | mew Cancel || Apply 


3) 接着 在 Intellij IDE 开发 工具 的 Build 菜单 选项 中 选择 Build Artfacts 选项 , 


所 示 。 


图 7-14 jar 包 存 放 的 位 置 


如 图 7-15 


File Edit View Navigate Code Analy Refactor MEME Run Tools VCS 


tis Make Project -trl#F9 tala» 4E Wort 
Make Module 'SparkStreamingExample’ ileDeviceSimulatio 
Compile ’,,.iceSimulation, scala’ “trl+ShiFt+F 9 ample 
Rebuild Project p 
Generate Ant Ss — 
Build Artifacts... T 
nf 
- ind msuingl). 1 
V if (args,length != 3) 1 


System.err.println('"Usage: «filename» 


[| 7-15 选择 Buid Artfacts 


4) 在 弹出 的 Build Artfact 对 话 框 中 选择 SaleDeviceSimulation 选项 一 Rebuild， 至 此 就 完 
成 了 打包 过 程 ， 如 图 7-16 所 示 。 


E with Cerl+Shift+N 


| Build ArtiFact 


Action | 


* Drag and Drop fllef 


图 7-16 选择 SaleDeviceSimulation Rebuild 


5) 现在 要 在 spark 环境 下 运行 SparkStreamingExample. jar 中 的 SaleDeviceSimulation. scala, 
将 /usr/local/ spark/git-2. 1. 0/SparkStreamingExample/ out/artifacts/SaleDeviceSimulation H 
录 中 的 SparkStreamingExample. jar 复制 到 /usr/local/spark/spark - 1. 1. 0 — bin — hadoop2. 4 这 
个 spark 目录 下 ， 命 令 为 ; 
root € SparkMaster:/usr/local/spark/spark — 1.1.0 - bin - hadoop2.4 # cp /usr/local/spark/git 


-2.1.0/ 
SparkStreamingExample/out/artifacts/SaleDeviceSimulation/SparkStreamingExample. jar . 


(注意 : 这 里 复制 的 目标 位 置 是 /usr/local/ spark/spark — 1. 1. 0 — bin - hadoop2. 4) > 


root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4# cp /usr/local/spar 
/git-2.1.0/SparkStreamingExample/out/artifacts/SaleDeviceSimuLation/SparkStreami 
ngExample.jar . 

a ine ard < 11. Se Bu hadoop2.4# ls 


LICENSE pythi 
CHANGES: txt exanples Log README. md 
conf lib NOTICE RELEASE 
让 /usr/local/spark/spark-1.1.0-bin-hadoop2.4# 


6) 现在 要 使 用 SparkStreamingExample. jar 中 的 SaleDeviceSimulation. scala (这 个 文件 在 
spark, streaming example 包 之 下 ) 充当 客户 端 来 癌 客 户 端 发 送 [root/userlocal/idea 目录 下 的 
networkdata. txt 文件 ，networkdata. txt 文件 的 内 容 如 图 7-17 所 示 。 
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networkda 
A 


networkdata.txt (~/user/local/idea) 


Ld We open M IB save e 


networkdata.txt x 


one 
two 
three 
four 
five 
six 
seven 
eight 
nine 
teen| 


图 7-17 networkdata. txt 文件 的 内 容 


7) 在 命令 行 中 进入 /usr/local/spark/spark - 1. 1.0 - bin - hadoop2. 4, % Jaq fj A. java — 
classpath /usr/local/spark/spark - 1. 1. 0 — bin - hadoop2. 4/SparkStreamingExample. jar spark _ 
streaming example. SaleDeviceSimulation /root/user/local/idea/networkdata. txt 8888 2000, ， 如 下 


Biz o 


root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4# java -classpath /us 
r/local/spark/spark-1.1.0-bin-hadoop2.4/SparkStreamingExample.jar spark streamin 


g example.SaleDeviceSimulation /root/user/local/idea/networkdata.txt 8888 2000 


这 里 使 用 的 是 Java 的 运行 模式 ， 首 先 指 定 了 jar 包 的 classpath PK 44 7j/usr/local/spark/ 
spark - 1. 1. 0 -bin - hadoop2. 4/SparkStreamingExample. jar; 然后 指定 运行 jar 包 中 treaming_ex- 
ample 包 下 的 SaleDeviceSimulation. scala 文件 ; 接着 使 用 /root/user/local/idea/ networkdata. txt 指 
定 服务 器 端 向 客户 端 发 送 的 文本 文件 ;， 紧 接着 用 8888 指定 服务 器 端口 ; 最 后 用 参数 2000 指定 
每 隔 2s 回 客 户 端 发 送 一 行 数 据 。 命 令 执行 后 服务 器 端 一 直 处 于 等 待 监 听 是 否 有 客户 端 连 接 上 
来 的 状态 ， 如 果 有 客户 端 连 接 上 来 之 后 服务 做 承 每 隔 2s 向 连接 上 来 的 服务 顺 发 送 一 次 文本 。 

(5) 现在 再 创建 一 个 服务 需 对 应 的 客户 端 程序 ， 代 码 如 下 : 


package spark streaming example 
import org. apache. spark. | SparkContext , SparkConf] 
import org. apache. spark. streaming. | Milliseconds , Seconds , StreamingContext | 
import org. apache. spark. streaming. StreamingContext. _ 
import org. apache. spark. storage. StorageLevel 
/Pk sk 
* Created by root on 4/18/15. 
* / 
object NetworkWordCountDemo | 


def main( args; Array | String | ) | 
val conf = newSparkConf( ). setAppName( " NetworkWordCountDemo " ). setMaster( " local| 3 ] " ) 
val sc = newSparkContext ( conf) 


valssc = new StreamingContext ( sc , Seconds ( 6) ) 
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val lines = ssc. socketTextStream ( args(0) , 
args( 1). toInt, 
StorageLevel. MEMORY, AND. DISK. SER 


) 
val words = lines. flatMap(. . split(" ," )) 
valwordCounts = words. map( x => (x,1) ). reduceByKey(_ &. ) 


wordCounts. print( ) 
ssc. start( ) 


ssc. awaitTermination( ) 


| 


(6) 对 客户 端 程序 代码 的 解析 如 下 。 

首先 使 用 new SparkConf( ) . setAppName ( " NetworkWordCountDemo " ) . setMaster ( " local 
[31") 构 建 一 个 主 结 点 master 为 本 地 local 模式 的 SparkConf; 接着 使 用 new StreamingContext 
(sc ,Seconds(6) ) 创建 了 一 个 每 隔 6 s 读 取 一 次 服务 需 发 送 过 来 的 文本 数据 的 StreamingContext 
的 实例 对 象 〈 由 于 前 面 服务 器 端 每 隔 2s 回 连 接 的 客户 端 发 送 一 次 数据 ， 那 么 客户 端 每 隔 6s 应 
该 可 以 读 取 3 条 服务 硕 发 送 过 来 的 数据 ) ; 紧 接着 使 用 sse. socketTextStream(args(0) , args (1) . 
toInt , StorageLevel. MEMORY_AND_DISK_SER ) 创 建 一 个 读 取 网 络 接口 的 流 数 据 ， 参 数 args(0 ) 
是 服务 器 的 名 称 ， 查 看 服务 硕 名 称 可 知 服务 需 是 wyy， 参 数 args(1). tolnt ARS avin AS, 
根据 前 面 知道 的 服务 器 的 端口 号 可 知 args (1). tolnt 的 值 是 8888; 最 后 使 用 flatMap 和 map PK 
数 对 客户 端 读 取 的 数据 进行 处 理 。 

(7) 现在 开始 运行 NetworkWordCountDemo. sala 文件 。 

由 于 NetworkWordCountDemo. scala 中 的 ssc. socketTextStream( args(0) ,args(1).toInt,Stor- 
ageLevel. MEMORY AND DISK SER) 需要 运行 参数 (服务 器 名 称 和 端口 号 ) ， 所 以 在 运行 
NetworkWordCountDemo. scala 之 前 需要 在 Intellij IDE 工具 中 的 Run 菜单 中 的 Edit TES 
tions 中 配置 相应 的 参数 ， 配 置 参数 如 图 7-18 所 示 。 


+— fh ¥ t 5 Name: | NetworkWordCountDemo C] Share [7] Single instar 
ee Configuration | Logs 
fWindowWordCountDe 
= NetworkWordCountD Main class: spark streaming example.NetworkWordCountDemo 
SF Dekana VM options: 
Program arguments: localhost 8888 
Working directory: /usr/local/spark/git-2,1.0/SparkStreamingExamp [ 


Environment variables: 


Use classpath of module: | SparkStreamingExample 


[| Use alternative JRE: 


[_] Enable capturing form snapshots 


* Before launch: Make 


| ok | | Cancel | | | Help | 
[d 7-18 Edit Configurations 中 配置 相应 的 参数 
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1) 这 里 指定 了 应 用 的 名 称 是 NetworkWordCountDemo, ， 应 用 的 人口 类 是 spark_streaming_ 
example. NetworkWordCountDemo, ， 服 务 器 的 名 称 是 localhost， 服 务 器 的 端口 号 是 8888。 这 里 
服务 右 的 名 称 之 所 以 是 localhost 是 因为 在 ect 中 的 hosts 文件 中 的 主机 的 名 称 是 localhost, 
hosts 文件 所 在 目录 如 下 : 


root@SparkMaster:~# cd /usr/local 

root@SparkMaster:/usr/local# ls 

bin etc git idea lib share src ssl-0.9.8c 
curl games hadoop include libexec sbin spark vmtools 
root@SparkMaster:/usr/local# cd /etc 

root@SparkMaster:/etc# ls 


acpi gtk-3.0 polkit-1 
adduser.conf hdparm.conf popularity-contest.conf 
adjtime host.conf ppp 
alternatives hostname profile 
anacrontab profile.d 
apg.conf osts~ protocols 
apm hosts.allow pulse 
apparmor hosts .deny python 
apparmor.d hp python2.7 
apport ifplugd python3 
apt init python3.2 
aptdaemon init.d rcO.d 
at.deny initramfs-tools rci.d 
at-spi2 inputrc rc2.d 
avahi insserv rc3.d 
bash.bashrc insserv.conf rc4.d 
bash completion insserv.conf.d rc5.d 
bash completion.d iproute2 rc6.d 


2) 使 用 vim hosts 命令 打开 hosts 文件 : 


1127.0.0.1 localhost mer 
192.168.56.130 SparkMaster EPAM 
192.168.56.131 SparkWorker1 
192.168.56.132 SparkWorker2 


# The following lines are desirable for IPv6 capable hosts 
E ip6-localhost ip6-loopback 

fe00::0 ip6-localnet 

ff00::0 ip6-mcastprefix 

ff02::1 ip6-allnodes 

ff02::2 ip6-allrouterB 


这 里 看 到 主机 的 IP 地 址 是 127. 0.0.1， 名 称 是 localhost， 由 于 我 们 使 用 本 地 模式 运行 
NetworkWordCountDemo. scala， 所 以 在 配置 运行 NetworkWordCountDemo 的 参数 时 输入 的 服务 
fit 4 PK localhost, 

3) 运行 NetworkWordCountDemo. scala 文件 ， 在 命令 行 下 SaleDeviceSimulation. scala 这 个 
服务 需 端 的 程序 监测 到 有 客户 疹 程序 连接 上 来 之 后 就 会 每 了 哺 2 s 随机 的 发 送 /root/user/local/ 
idea 目录 下 的 networkdata. txt 文件 中 的 “one two three four five six seven eight nine teen” 中 的 
一 行文 本 到 客户 端 。 

4) 上 面 是 服务 器 端 SaleDeviceSimulation. scala 的 运行 效果 ， 此 时 可 以 看 到 已 经 有 “Got 
client connected from:/127. 0. 0. 1” 连 接 上 服务 器 了 并 有 旦 服务器 不 断 的 每 隔 2s 发 送 一 次 文本 
内 容 。 下 面 是 客户 端 Network WordCountDemo. scala 运行 的 效果 : 


E) root @SparkMaster: Jusr/local/spark/spark-1.1.0-bin-hadoop2.4 
[usr/local/spark/spark-1.1.0-bin-hadoop2.4/SparkStreamingExample.jar spark str 
eaming example.SaleDeviceSimulation /root/user/local/idea/networkdata.txt 8888 
2000 


Got client connected from: /127.0.0.1 


(two | 
six 
four 


a 连 上 服务 器 


three 
six 
one 
eight 
eight 
eight 
six 
two 
nine 服务 器 端 运行 结果 
two 
seven 
four 
six 
two 
nine 
six 


SparkUI : Started SparkUI at http ;//SparkMaster : 4040 

15/04/26 19:44:06 INFOTaskSetManager : Finished task 1. 0 in stage 43. O( TID 65) in 3 ms on localhost 
(2/2) 

15/04/26 19:44:06 INFOTaskSchedulerImpl : Removed TaskSet 43.0, whose tasks have all completed, 


from pool 


( four,1) 
(teen,1) 
( three,1) 


15/04/26 19:44:06 INFODAGScheduler ; Stage 43 ( take at DStream. scala :608 ) finished in 0. 000 s 
15/04/26 19:44:06 INFOSparkContext ; Job finished :take at DStream. scala :608 ,took 0. 014364008 s 
15/04/26 19:44:06 INFOJobScheduler: Finished job streaming job 1430048646000 ms. 0 from job set of 
time 1430048646000 ms 

15/04/26 19:44:06 INFOJobScheduler: Total delay :0. 061 s for time 1430048646000 ms ( execution; 
0. 044 s) 

15/04/26 19.44.12 INFOContextCleaner: Cleaned broadcast 33 

15/04/26 19:44:12 INFOBlockManager:; Removing broadcast 34 

15/04/26 19:44:12 INFOBlockManager: Removing block broadcast, 34 

15/04/26 19:44:12 INFOMemoryStore; Block broadcast. 34 of size 2432 dropped from memory ( free 
140132009) 

15/04/26 19.44.12 INFOContextCleaner : Cleaned broadcast 34 

15/04/26 19:44:12 INFOBlockManager:; Removing broadcast 35 

15/04/26 19:44:12 INFOBlockManager; Removing block broadcast, 35 

15/04/26 19:44:12 INFOMemoryStore; Block broadcast 35 of size 2152 dropped from memory ( free 
140134161 ) 
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15/04/26 19.44.12 INFOContextCleaner: Cleaned broadcast 35 

15/04/26 19:44:12 INFO Executor; Running task 0.0 in stage 47. O( TID 70) 

15/04/26 19:44:12 INFO BlockFetcherlterator $ BasicBlockFetcherlterator ; maxBytesInFlight :50331648 , 
targetRequestSize ; 10066329 

15/04/26 19:44:12 INFO BlockFetcherlterator $ BasicBlockFetcherlterator; Getting 1 non — empty 
blocks out of 3 blocks 

15/04/26 19.44.12 INFO BlockFetcherlterator $  BasicBlockFetcherlterator: Started O remote fetches in 


0 ms 


(five,1) 
( eight,1) 


(seven, 1 ) 


5) 可 以 看 到 实现 销售 模拟 絮 ， 客 户 端 从 第 一 次 的 Time: 1430048646000 ms 到 第 二 次 的 
Time; 1430048652000 ms 间隔 6000 ms ( 即 6s) 获取 一 次 服务 器 端 发 送 的 数据 ， 以 后 每 隔 6s 
都 会 获取 一 次 。 从 客户 端 打 印 的 日 志 信 息 的 SparkUI:Started SparkUI at http ;//SparkMaster: 
4040 中 我 们 可 以 看 到 sparkUI 的 地 址 是 http ://SparkMaster: 4040, ， 在 浏览 器 中 输入 http:// 
SparkMaster:4040 后 的 信息 如 图 7-19 所 示 。 可 以 看 到 时 间 间 隅 是 6 s。 


Tooororiconrcern sp RR 


iP | & sparkmaster:4040/stages/ e M ag 
"———À ~ 
Active Stages (1) 
Stage Tasks: Shuffle Shuffle 
ld Description Submitted Duration Succeeded/Total Input Read Write 
0 runJob at (kill) 2015/04/26 4.6 min 0" 
RecelverTracker.scala 275 «details 20:08:31 
Completed Stages (138) 
Stage Tasks: Shuffle Shuffle 
ld Description Submitted (Duration Succeeded/Total input Read Write 
183 lake at DStream.scala:608 «details 2015/04/26 |20 ms —— — Y 
20:13:06 
181 take at DStream.scala:608 +detalls 2015/04/26 |2 ms ———— | —' 
20:13:06 
182 map at MappedDStream.scala:35 2015/04/26 (2s —— — 506.0B 
«delails 201306 <> 
179 take at DStream.scala:608 +detalls 2015/04/2 s WE 
20:13:00 
177 lake at DStream scala:608 +detalls 2015/04/26 |1 ms em | 
20:13:00 
178 map at MappedDStream.scala:35 2015/0426 |1 ms ii 503.0B 
+detall 20:13:00 
175 lake at DStream scala:608 +detalls 2015/04/26 |1 ms — À— [e 


Al 7-19  WebUI 的 运行 


os 有 状态 (Stateful) 操作 实例 演示 


有 状态 (Stateful) 的 操作 是 指 在 将 不 断 输入 的 数据 按时 间 间 隔 切 分 成 一 个 个 RDD， 然 
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后 对 当前 和 历史 的 RDD 累加 后 进行 的 操作 。 现 在 建立 一 个 有 状态 的 Spark Streaming 监控 。 
在 SparkStreamingExample 工程 下 新 建 一 个 用 于 实现 Spark Streaming 监控 有 状态 (Stateful) 操 
作 的 Scala 文件 SparkStatefulWordCountDemo. scala, 


v CSparkstreamingExample > 


> © idea 
Y 户 src 
 [1main 
v scala 
Y 加 spark streaming example 
® NetworkWordCountDemo 
® SaleDeviceSimulation 
® SparkStatefulWordCountDemo 
@ WordCount 
» FE) META-INF 
JI SparkStreamingExample.iml 
» WhExternal Libraries 


(1) SparkStatefulWordCountDemo. scala 的 具体 实现 代码 如 下 : 


package spark streaming example 
import org. apache. spark. | SparkContext , SparkConf] 
import org. apache. spark. streaming. | Seconds , StreamingContext | 
import org. apache. spark. streaming. StreamingContext. _ 
/Pk sk 
* Created by root on 4/21/15. 
* / 
object SparkStatefulWordCountDemo | 


def main( args; Array | String | ) | 


/ / SateFul fig 4E SC AY At BE PR TC, SES BOE OER EL, 5 Pet SAEPIUS RAE BA TEC 


valupdateFunc = (values ; Seq| Int | , state; Option| Int] ) => | 
valcurrentCount = values. foldLeft(0)(_+_) /对 现在 的 值 进行 求 和 


valpreviousCount = state. getOrElse (0 ) // 获 取 过 去 的 值 ,如 果 过 去 没有 值 , 则 取 0 
Some( currentCount + previousCount ) // 求 和 ,返回 新 的 值 

| 

val conf = 


newSparkConf( ). setAppName("StatefulWordCount" ). setMaster(" local[ 2 |" ) 


val sc = newSparkContext ( conf) 


// 创 建 StreamingContext 


valssc = new StreamingContext( sc , Seconds ( 5) ) 


// 因 为 是 有 状态 的 ,需要 保存 之 前 的 信息 ,所 以 这 里 设 定 了 checkpoint 的 目录 ， 
// 以 防 断 电 后 内 存 数据 丢失 。 这 里 因为 没有 设置 checkpoint 的 时 间 间 隔 , 所 
// 以 会 发 现 每 一 次 数据 块 过 来 即 切 分 一 次 ,产生 一 个 . checkpoint 文件 
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ssc. checkpoint(". " ) 


// 获 取 数 据 
val lines = ssc. socketTextStream( args( 0) , args( 1 ). toInt ) 
val words = lines. flatMap(. . split(" ," )) 


valwordCounts 2 words. map( x 2» (x,1)) 


// fii FA updateStateByKey 来 更 新 状态 

valstateDstream = wordCounts. updateStateByKey [ Int | ( updateFunc ) 
stateDstream. print( ) 

ssc. start( ) 


ssc. awaitTermination( ) 


| 


(2) 对 上 述 代码 进行 解析 如 下 。 

1) 首先 使 用 匿名 函数 (values:Seq[ Int] , state; Option| Int | ) 来 定义 更 新 数据 状态 的 操作 ， 
第 一 个 参数 values:Seq| Int] 表示 新 进来 的 值 ， 第 二 个 参数 state: Option[ Int | 表示 上 一 次 统计 
的 值 。 这 个 匿名 函数 被 赋值 给 变量 updateFune, fi updateFunc Jy — 1 [HER ZX ,— E 2 MEL ER 
updateFunc 被 传递 给 实时 监控 workCounts 的 updateStateByKey 函数 来 更 新 监控 状态 。 在 匿名 
函数 的 函数 体 里 面 如 果 有 新 的 信息 来 了 就 会 获取 新 的 值 ， 再 获取 上 一 次 旧 的 值 ， 最 终 使 用 
Some( currentCount + previousCount ) 把 新 的 值 添加 到 有 旧 的 值 里 面 ， 依 此 来 代替 之 前 的 旧 的 值 并 
返回 这 个 值 。 

2) 然后 创建 StreamingContext 的 实例 sc， 因为 是 有 状态 的 ， 需 要 保存 之 前 的 信息 ， 所 
以 使 用 sse. checkpoint("." ) 设 定 了 checkpoint 的 目录 ， 以 防 断 电 后 内 存 数据 丢失 。 这 里 因为 
没有 设置 checkpoint 的 时 间 间 隔 ， 所 以 会 发 现 每 一 次 数据 块 过 来 就 会 切 分 一 次 ,产生 一 个 
. checkpoint 文件 。 

3) 接着 使 用 ssc. socketTextStream ( args (0) ,args(1). tolnt) M socket 流 里 面 获取 数据 ， 人 参数 
args (0) 是 服务 髓 的 名 称 ， 参 数 args (1).tomt 是 服务 需 的 端口 。 紧 接着 使 用 val words = 
lines. flatMap(. . split(",")) 和 val wordCounts = words. map (x => (x,1)) 进行 workcounts 的 单词 
统计 。 

4) 最 后 使 用 updateStateByKey 来 更 新 状态 。 

(3) 配置 运行 参数 来 运行 SparkStatefulWordCountDemo. scala， 配 置 参 数 如 图 7-20。 

这 里 指定 了 应 用 的 名 称 是 SparkStatefulWordCountDemo ， 应 用 的 人 口 类 是 spark_streaming 
example. SparkStatefulWordCountDemo, IRS 48H % PRE localhost, AR 4S Avg O 745 8888。 

现在 启动 服务 器 ， 在 命令 行 中 进入 /usr/local/spark/spark - 1. 1. 0 -bin - hadoop2.4, £A 
后 输入 java — classpath /usr/local/spark/spark - 1. 1. 0 - bin - hadoop2. 4/SparkStreamingExam- 
ple. jar spark. streaming. example. SaleDeviceSimulation /root/user/local/idea/networkdata. txt 8888 


2000, 40 FATA. 


473 
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root@SparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.4# java -classpath /us 
r/local/spark/spark-1.1.0-bin-hadoop2.4/SparkStreamingExample.jar spark streamin 
g example.SaleDeviceSimulation /root/user/local/idea/networkdata.txt 8888 2000 


T — he ¢ Name: SparkStatefulWordCountDemo| L] Share [_] Single instz 


x Run/Debug Configurations S 


Application Configuration | Logs 


(| SparkStatefulWordCc 
'PiSparkStatefulWordCc Main class: spark streaming example.SparkStatefulWordCountDem: 
Defaults 

VM options: 

Program arguments: localhost 8888 

Working directory: lusr/local/spark/git-2.1.0/5parkStreamingExample 


Environment variables: 


Use classpath of module: SparkStreamingExample 


C] Use alternative JRE: 


C] Enable capturing form snapshots 
* Before launch: Make 


by Make 
ox [cancel] | appy | [ rep | 
图 7-20 配置 运行 参数 


这 里 使 用 的 是 Java 的 运行 模式 ， 首 先 指定 了 jar 包 的 classpath #8744 A/usr/local/spark/ 
spark —1. 1. 0 - bin - hadoop2. 4/SparkStreamingExample. jar; 然后 指定 运行 jar 包 中 treaming_ 
example 包 下 的 SaleDeviceSimulation. scala 文件 ; Tz Æ fi Hj/root/user/local/idea/networkda- 
ta. txt 指定 服务 器 端 向 客户 端 发 送 的 文本 文件 ; 紧 接着 用 8888 fa ERS dem L1; 最 后 用 
2000 指定 每 隔 2s 向 客户 端 发 送 一 行 数据 。 回 车 后 服务 器 端 一 直 处 于 等 待 监听 是 否 有 客户 端 
连接 上 来 的 状态 ， 如 条 有 客户 端 连 接 上 来 之 后 服务 器 就 每 隔 2s [i] Ze Be EOE AY He SF at AC IK 
次 文本 。 

(4) 运行 SparkStatefulWordCountDemo. scala, ZA UH F : 


/ust/lib/java/jdk1. 8. 0. 20/bin/java — Didea. launcher. port = 7535 - Didea. launcher. bin. path = /usr/ 
local/idea/idea - IC — 135. 1230/bin - Dfile. encoding = UTF — 8 - classpath /usr/lib/java/jdk1. 8. 0_ 
20/ jre/ lib/jsse. jar:/usr/lib/java/jdk1. 8. 0. 20/jre/lib/jce. jar:/usr/lib/java/jdk1. 8. 0. 20/jre/lib/jfx- 
swt. jar;/usr/lib/java/jdkl. 8.0 _ 20/jre/lib/resources. jar;/usr/lib/java/jdk1l. 8.0 _ 20/jre/lib/plu- 
gin. jar :/usr/lib/java/jdk1. 8. 0 20/jre/lib/javaws. jar;/usr/lib/java/jdk1. 8.0 | 20/jre/lib/de- 
ploy. jar:/usr/lib/java/jdk1. 8. 0_20/jre/lib/ jfr. jar :/usr/lib/java/jdk1. 8. 0 _20/jre/lib/management — 

agent. jar: /usr/lib/java/jdk1. 8. 0_20/jre/lib/rt. jar: /usr/lib/java/jdk1. 8. 0 _20/jre/lib/charsets. jar:/ 
ust/lib/java/jdk1. 8. 0_20/jre/lib/ext/nashorn. jar ;/usr/lib/java/jdk1. 8. 0. 20/jre/lib/ext/sunjce. pro- 
vider. jar;/usr/lib/java/jdk1l. 8.0 _ 20/jre/lib/ext/dnsns. jar:/usr/lib/java/jdk1. 8.0 _ 20/jre/lib/ext/ 
sunpkes11. jar;/usr/lib/java/jdk1l. 8. 0 __20/jre/lib/ext/sunec. jar:/usr/lib/java/jdk1. 8. 0 _20/jre/lib/ 
ext/zipfs. jar:/usr/lib/java/jdk1. 8. 0_20/jre/lib/ext/ jfxrt. jar: /usr/lib/java/jdk1. 8. 0 _20/jre/lib/ext/ 
localedata. jar;/usr/lib/java/jdk1. 8.0 _ 20/jre/lib/ext/cldrdata. jar:/usr/local/spark/git — 2.1. 0/ 
SparkStreamingExample/ out/ production/SparkStreamingExample :/usr/lib/scala/scala — 2. 10. 4/lib/sca- 
la — library. jar :/usr/lib/scala/scala — 2. 10. 4/lib/scala — swing. jar:/usr/lib/scala/scala — 2. 10. 4/lib/ 


scala — actors. jar;/usr/local/spark/spark — 1. 1. 0 — bin ~ hadoop2. 4/lib/spark — assembly - 1. 1. 0 - 
hadoop2. 4. 0. jar:/usr/local/idea/idea — IC — 135. 1230/lib/idea, rt. jar com. intellij. rt. execution. ap- 
plication. AppMain spark. streaming. example. SparkStatefulWordCountDemo localhost 8888 


15/04/26 20:42:35 INFOTaskSchedulerImpl : Removed TaskSet 11. 0, whose tasks have all completed , 
from pool 


15/04/26 20:42:35 INFODAGScheduler;Stage 11 (take at DStream. scala:608 ) finished in 0. 000 s 


( nine,1) 


( eight,1) 


15/04/26 20:42:35 INFOSparkContext : Job finished; take at DStream. scala 608 , took 0. 035178633 s 


15/04/26 20:42:40 INFOCheckpointWriter ; Saving checkpoint for time 1430052160000 ms to file 'file;/ 
usr/local/spark/git — 2. 1. O/SparkStreamingExample/checkpoint — 1430052160000 ' 


( nine,2) 
( six,2) 
( eight,1) 


由 于 在 SparkStatefulWordCountDemo. scala 中 使 用 ssc. checkpoint( ". " ) 设 置 了 checkpoint, 
所 以 在 IDE 中 会 每 隔 5s 产生 一 个 checkpoint 文件 ， 如 图 7-21 所 示 。 


> Eisrc 
.checkpoint-1430052995000.bk.crc 
,checkpoint-1430052995000.crc 
,checkpoint-1430053000000.bk.crc 
,checkpoint-1430053000000.crc 
.checkpoint-1430053005000.bk.crc 
,checkpoint-1430053005000.crc 
,checkpoint-1430053010000.bk.crc 
.checkpoint-1430053010000.crc 
.checkpoint-1430053015000.bk.crc 
,checkpoint-1430053015000.crc 
checkpoint-1430052995000 
checkpoint-1430052995000.bk 

E] checkpoint-1430053000000 
checkpoint-1430053000000.bk 


m chaclenanint 1420nn&»nnesnnn 


EJ E E9J E9] EZ EZ] E9) EJ] EJ E E EJ 


un F SparkStatefulWordCountDemo 


[d 7-21 checkpoint 文件 


7. 3.4 Window 操作 实例 演示 


现在 要 实现 一 个 让 窗口 不 断 地 移动 ， 在 窗口 (Window) 移动 的 过 程 中 统计 最 近 的 word 
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单词 个 数 。 这 种 场景 类 似 于 博客 里 面 统计 最 近 的 一 段 时 间 (例如 最 近 的 一 分 钟 ) 的 最 热门 


词汇 。 


(1) 在 SparkStreamingExample 工程 下 新 建 一 个 用 于 Window 操作 的 Scala 文件 Window- 
WordCountDemo. scala 如 下 所 示 。 


DL NM CERE E 


v L3SparkStreamingExample | us) /ocal/sparcagit 
» idea 
F31a51e8db-9fc5-4521-8ab6-1290d13582d2 | 


© 5e9f359f-59c5-4890-aaed-135446ca2ab9 
v src 
vy O main 
v © scala 
* © spark_streaming_example 
加 NetworkWordCountDemo 
®© SaleDeviceSimulation 
'& SparkStatefulWordCountDemo 


© WindowWordCountDemo 
加 WordCount 
> © META-INF 
Jl SparkStreamingExample.iml 
^ W External Libraries 


(2) WindowWordCountDemo 的 具体 实现 代码 如 下 。 


package spark, streaming, example 


import org. apache. 
import org. apache. 
import org. apache. 


import org. apache. 


[ s 


spark. | SparkContext , SparkConf | 
spark. storage. StorageLevel 
spark. streaming. _ 


spark. streaming. StreamingContext. _ 


* Created by root on 4/26/15. 


$^ 


objectWindowWordCountDemo | 


def main( args; Array | String | ) | 


val conf = 


e 


newSparkConf( ). setAppName( " WindowWordCount" ). setMaster( " local| 2 ] " ) 
val sc = newSparkContext ( conf) 


// 创 建 StreamingContext 


valssc = new StreamingContext( sc , Seconds ( 5 ) ) 


ssc. checkpoint ( " . " ) 


// 获 取 数 据 


val lines = 


ssc. socketTextStream( args (0) ,args(1). toInt, 
StorageLevel. MEMORY ONLY SER) 
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val words = lines. flatMap(. . split(" ," )) 


/Pk s 

windows 操作 ， 参数 Seconds ( args (2). toInt 是 windows 的 窗口 时 间 间 隔 , 这 里 必须 是 5. 的 倍数 。 
参数 Seconds( args(3). toInt) 是 windows 的 滑动 时 间 间 隔 , 也 必须 是 5 的 倍 。 

*/ 


valwordCounts = words. map(x => (x ,1) ). reduceByKeyAndWindow( (a:Int,b:Int) => 
(a+b) ,Seconds( args(2). toInt) , Seconds( args(3). toInt) ) 


wordCounts. print( ) 
ssc. start( ) 


ssc. awaitTermination( ) 


| 


(3) 上 述 代码 解析 如 下 。 

1) 首先 创建 SparkContext 的 实例 sc 和 StreamingContext 的 实例 ssc, ZA Seconds(5) X 
示 5s 切 分 一 次 数据 ， 然 后 使 用 ssc. checkpoint("." ) 设 置 checkpoint, 

2) 紧 接 着 使 用 ssc. socketTextStream( args(0)args(1). toInt, StorageLevel. MEMORY ONLY 
_SER) 从 数据 流 里面 获 取 数 据 ， 参 数 args (0) 表示 服务 右 名 称 ，args( 1) 表示 服务 絮 的 端口 
号 ， 谈 人 数据 后 使 用 lines. flatMap(_. split(" ," ) ) 进行 flatMap 操作 。 

3) 最 后 使 用 words. map(x=>(x ,1) ).reduceByKeyAndWindow((a:Int,b:Int) => (a 
b) , Seconds( args(2). toInt) ,Seconds( args(3). toInt) ) 进行 Windows 操作 。 因 为 要 进行 reduce- 
ByKeyAndWindow 操作 (也 就 是 要 进行 reduceByKey 操作 ) ， 所 以 要 先进 行 map 操作 ， 把 数 
据 映 射 成 (x,1) ， 映 射 完成 后 就 开始 使 用 reduceByKeyAndWindow ( (a:Int,b:Int) => (a+b) 
将 上 一 次 和 本 次 的 数据 进行 素 加 。 这 里 的 参数 Seconds (args(2).tomt) 表 示 Windows 的 监听 
时 间 间 隔 ，Seconds(args(2).tomt) 的 值 必须 是 切 分 数据 时 设置 的 时 间 间 隔 的 倍数 〈 也 就 是 
必须 是 5 的 倍数 ) , BB Seconds ( args (3) . tomt) 表示 每 次 窗口 滑动 的 时 间 间 阿 ，Seconds 
(args( 3) .tomt) 的 值 也 必须 是 切割 数据 的 倍数 。 所 以 words. map (x = > (x ,1)) 
. reduceByKeyAndWindow((a:Int,b:Int) => (a +b) , Seconds( args (2). toInt ) , Seconds ( args (3). 
toInt) ) &s BJ ef Seconds ( args (3). toInt) s 的 时 间 就 会 对 前 Seconds( args (2). toInt) s 的 
时 间 进 行 一 次 单词 计数 的 操作 。 

(4) 配置 运行 参数 来 运行 WindowWordCountDemo. scala， 配 置 参数 如 图 7-22 所 示 。 

Program arguments 中 一 共有 四 个 参数 , 第 一 个 参数 localhost 2275 MR A 4 PS , A 于 使 用 
本 地 模式 运行 ， 所 以 填 的 是 localhost; 第 二 个 参数 8888 表示 服务 顺 的 端口 号 ; 第 三 个 参数 
30 表示 表示 Window 的 监听 时 间 间 隔 ， 由 于 每 隔 5 s 中 对 数据 进行 一 次 RDD 切割 ， 所 以 
30 s 内 进行 了 6 次 数据 切割 ， 这 样 就 形成 了 6 个 RDD, 这 6 个 RDD 形成 了 一 个 Window; 
第 四 个 参数 10 表示 窗口 每 次 滑动 的 时 间 间 隔 ， 它 也 是 每 次 切割 数据 的 时 间 5 的 倍数 ， 
这 样 每 切割 两 次 数据 窗口 就 会 移动 一 次 。 每 阳 10s 对 前 30s 的 数据 进行 一 次 单词 统计 
的 操作 。 


x 


Run/Debug Configurations 


十 一 Name: | WindowWordCountDemo | C] Share [| Single instance onl 


SAPI configuration! Logs 


[jl Main class: spark streaming example.WindowWordCountDemo 
% De 
VM options: | IE. 
Program arguments: | localhost 8888 30 10 | EI 
Working directory: | /usr/local/spark/git-2.1.0/SparkStreamingExample |… JE 
Environment variables: 


Use classpath of module: | 73 SparkStreamingExample ivl 


[C] Use alternative JRE: si] 


[ ] Enable capturing form snapshots 


» Before launch: Make 


Ead | Cancel | | Apply | | Help 
图 7-22 ”配置 运行 参数 


(5) 接 下 来 启动 服务 器 ， 在 命令 行 中 进入 /usr/local/spark/spark - 1. 1. 0 - bin - ha- 
doop2. 4 ,然后 输入 java — classpath /usr/local/spark/spark - 1. 1. 0 - bin - hadoop2. 4/SparkStre- 
amingExample. jar spark, streaming. example. SaleDeviceSimulation /root/user/local/idea/network- 


data. txt 8888 2000, ， 如 下 所 示 。 


rootgSparkMaster: /usr/local/spark/spark-1.1.0-bin-hadoop2.48 java -classpath /us 
r/local/spark/spark-1.1.0-bin-hadoop2.4/SparkStreamingExample.jar spark streamin 


g example.SaleDeviceSimulation /root/user/local/idea/networkdata.txt 8888 2000 


这 里 使 用 的 是 Java 的 运行 模式 ， 首 先 指定 了 jar 包 的 classpath J£ 1$ A/usr/local/spark/ 
spark -1. 1. 0 - bin - hadoop2. 4/SparkStreamingExample. jar; 然后 指定 运行 jar 包 中 treaming_ 
example 包 下 的 SaleDeviceSimulation. scala 文件 ; 接着 f Hj/root/user/local/idea/networkda- 
ta. txt 指定 服务 右 端 向 客户 端 发 送 的 文本 文件 ; 紧 接着 用 8888 指定 服务 器 端口 ; 最 后 用 
2000 指定 每 隔 2s 向 客户 端 发 送 一 行 数据 。 回 车 后 服务 器 端 一 直 处 于 等 待 监听 是 否 有 客户 端 
连接 上 来 的 状态 ， 如 末 有 客户 端 连 接 上 来 之 后 服务 器 就 每 隔 2s 癌 连 接 上 来 的 服务 句 发 送 
次 文本 。 

(6) 运行 WindowWordCountDemo. scala, ERUN F o 


15/04/27 01:03:45 INFOSparkContext; Job finished : take at DStream. scala :608 , took 0. 1005062 s 


(nine,1) 
(four,1) 
15/04/27 01:03:55 INFOMapPartitionsRDD ; Removing RDD 10 from persistence list 


Time ; 1430067835000 ms 


y À a ^ n P1 
(o o oo o e o 9 o 
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(teen, 1 ) 

(one, 1) 

(nine, | ) 

(six,1) 

(four, 1 ) 

(eight ,2 ) 

15/04/27 01:04:05 INFOBlockManagerMaster: Updated info of block rdd_28_1 


(teen, 2 ) 

(one ,2 ) 

(nine, 1 ) 

(six,1) 

(three ,1 ) 

( four ,3 ) 

(eight ,2 ) 

15/04/27 01:04:15 INFOCheckpointWriter ; Saving checkpoint for time 1430067855000 ms to file ' file: / 
usr/local/spark/ git -2. 1. O/SparkStreamingExample/ checkpoint — 1430067855000 ' 


( teen ,3 ) 

(one ,2) 

(nine, 1) 

(six ,2) 

(three , 1 ) 

( four ,2 ) 

(seven, 1 ) 

(eight ,3 ) 

15/04/27 01:04:25 INFOCheckpointWriter ; Saving checkpoint for time 1430067865000 ms to file ' file: / 
usr/local/spark/ git — 2. 1. O/SparkStreamingExample/ checkpoint — 1430067865000 ' 


( nine,2) 
(six,l) 

( three,1) 
( four ,2 ) 


(seven, | ) 

(eight ,2 ) 

15/04/27 01:04:35 INFOMemoryStore; Block rdd_14_0 of size 197 dropped from memory ( free 
140127041 ) 


( two,2) 

(teen, 1 ) 

(one ,2 ) 

(nine ,4 ) 

(six,1) 

(three ,1 ) 

( four, 1 ) 

(seven, | ) 

(eight ,2 ) 

15/04/27 01:04:45 INFOBlockManager; Removing RDD 59 


(one ,3 ) 
(nine ,3 ) 
(three ,1 ) 
(five, 1) 
(four, 1 ) 
(eight ,3 ) 


从 时 间 Time: 1430067825000 ms, Time: 1430067835000 ms, Time; 1430067845000 ms, 
Time: 1430067855000 ms, Time: 1430067865000 ms, Time; 1430067875000 ms, Time: 1430- 
067885000 ms 可 以 看 出 ， 每 隔 10s 切割 了 一次 数据 。 由 于 5s 切 分 一 次 数据 ， 我 们 设置 每 30s 
监听 一 次 Window 窗口 ， 所 以 30s 就 会 产生 6 个 RDD。 由 于 服务 器 每 隔 2 发 送 一 次 数据 ， 
所 以 30s 内 就 应 该 产生 15 条 记录 。 


( two,2) 
(teen, 1 ) 
(one ,2) 
(nine ,4 ) 
(six, 1) 
(three , 1 ) 
(four, 1 ) 
(seven, 1 ) 


(eight ,2 ) 
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15/04/27 01:04:45 INFOBlockManager : Removing RDD 59 


(one,3) 
( nine,3) 
( three,1) 
(five,l) 
( four,1) 
(eight ,3 ) 


从 最 后 的 运行 结果 中 我 们 可 以 看 出 记录 的 总 数 2+1+2+4+1+1+1+1+2 和 3+3+3 
+1+1+1+3 都 等 于 15， 即 使 再 往 下 记录 依然 是 15。 这 也 就 是 说 window (窗口 ) 操作 是 以 
特定 时 间 段 并 以 特定 时 间 间 隔 为 单位 进行 的 滑动 操作 ， 此 操作 也 是 Spark Streaming 的 主要 运 
行 场景 之 一 。 


(LES SparkStreaming 处 理 多 源 数据 实战 | 


现实 世界 可 以 提供 多 数据 源 ， 在 这 些 数据 源 中 大 部 分 数据 源 可 以 提供 流 式 数据 ， 即 数据 
源源 不 断 到 达 。 通 过 对 多 源 数据 的 分 析 可 以 提供 对 现实 世界 中 物体 或 者 人 物 的 “画像 ”。 本 
案例 中 通过 对 物体 或 者 人 物 建立 画像 ， 可 以 有 效 的 支撑 企业 对 大 数据 应 用 的 支持 ， 比 如 说 实 
时 推荐 系统 等 应 用 。 下 面 是 一 个 对 多 源 数据 进行 流 式 处 理 ， 并 且 建 立 相 应 的 用 户 标 签 的 实 
例 。 以 下 为 该 案例 的 核心 代码 。 


val conf = new SparkConf( ). setMaster( " local" ). setAppName(" UserTag" ) 


. set( " spark. cores. max" ,"4" ) 


. set( " spark. executor. memory" ,"512M" ) // MK kafka 接收 数据 
val brokers = " XXX. XX" // broker 的 地 址 
val topics = " test2" //topic 44 ^f 


val ssc = new StreamingContext( conf , Seconds (60) ) /实例 化 一 个 streamingContext 

val sc = ssc. sparkContext 

val topicsSet = topics. split( " ," ). toSet 

val kafkaParams = Map| String, String | ( " metadata. broker. list" —» brokers) 

val messages = KafkaUtils. createDirectStream| String , String , StringDecoder , StringDecoder | ( ssc, 
kafkaParams , topicsSet ) 

val lines = messages. map(_. 2) 

// 生 成 标签 表 

val tagtable = TagTable. Createtable( ) // 生 成 标签 编码 表 


val sqlContext 2 new SQLContext( sc ) 


val schemaString = " No, id , sex" 
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val schema; StructType = StructType( schemaString. split( " ," ) 
. map( fieldName => StructField( fieldName , StringType , true) ) ) 
val rowRDD: RDD[ Row | 2 sc. makeRDD(" " ). map(d => Row( ) ) 
var UserTagtable ; DataFrame = sqlContext. createDataFrame ( rowRDD , schema) 
UserTagtable. show ( ) e) 


Z sk sk ee oe o a oko 对 读 进 来 的 json SC EFT ERAS aooo RCC CA o CC aC oR a 
lines. foreachRDD( (rdd; RDD[ String] ) => | 
if( !rdd. isEmpty( ) ) | 

val sqlContext = new SQLContext( sc ) 

val Record; DataFrame = sqlContext. read. json( rdd) 

val Record, column; Array| String] = Record. columns 

val Record, Array ; Array| Row | = Record. collect( ) 

Record, Array. foreach( row => | 

val Record. Map: Map| String, Any | = row. getValuesMap| Any | ( Record, column ) 

val record = new Array| Long | (69) 

for(i«-O to record. length — 1) record (i) 20 


// sk sk sk 2 eo eae k ae ae ok k ok eo k k 对 每 一 条 记录 进行 匹配 k ae i ae oko oe k kok kok k a k k k K k k 


for( (k,v) «- Record Map) yield | 
k match | 
case "id" =>record(1) =1 
case "sex" => | 
record(2) =1 
if(v=="X")| 
record(3) =1 
| 
if(v=="X")| 
record(4)=1 


Case... =>... 


在 以 上 核心 代码 中 ， 我 们 使 用 了 kafka 系统 。kafka 是 一 种 分 布 式 的 、 基 于 发 布 /订阅 的 
消息 系统 ， 主 要 实现 数据 的 接口 屋 和 数据 的 实现 层 分 离 ， 同 时 提供 了 数据 的 一 个 副本 防止 数 
MAR kafka 提供 了 时 间 复 杂 度 0(1) 的 消息 持久 化 能 力 ， 即 使 对 于 PB 级 的 数据 也 能 保证 
常数 级 的 访问 性 能 。 我 们 要 在 Spark 中 使 用 kafka， 首 先 要 在 build. sbt 中 加 入 这 样 的 依赖 : 
libraryDependencies += " org. apache. spark" 96 " spark — streaming — kafka_ 2. 10" 96" 1. 5. 0" , 这 里 
的 Scala 版 本 和 Spark 的 版 本 要 和 本 地 系统 相 匹 配 。Spark 要 想 连接 kafka， 必 须 指 明 kafka 的 
broker 的 地 址 和 端口 号 ， 以 及 要 建立 连接 的 topic， 然 后 通过 KafkaUtils. createDirectStream 这 
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个 方法 加 载 kafka 的 配置 信息 ，ssc， 以 及 用 topic 把 从 kafka 中 读 入 的 数据 转换 为 streaming, 
以 方便 我 们 对 数据 进行 标识 。 

打印 标签 的 时 候 我 们 首先 生成 一 个 标签 编码 表 ， 标 签 编码 表 用 来 存放 我 们 自己 建立 的 标 
签 。 然 后 我 们 再 建立 一 个 空 的 用 户 标 签 表 ， 用 来 做 模式 匹配 ， 注 意 ， 这 里 的 schema WER AK 
据 库 表 的 表 头 。 然 后 我 们 流 式 读 和 数据， 根据 用 户 的 每 一 个 字段 和 schema 进行 匹配 ， 如 采 
有 这 个 属性 ， 就 为 1， 没 有 就 为 0。 这 样 我 们 就 建立 了 一 张 用 户 的 标签 表 。 

该 案例 的 全 部 源码 如 下 : 


case class value( name ;String ,code:String ) 


import scala. collection. mutable 


object TagTable | 


import scala. collection. mutable. Map 


def Createtable( ) : Map[ String, value | = | 

val humanproperty = value( " 人 口 属 性 " ," XXX") 
val id = value(" 身份 证 号 人 码 "," XXX") 
val sex = value( " PERI" ," XXX") 
val man = value( " E" ," XXX") 
val woman = value( " Zr" ," XXX") 
val age = value( "年 龄 " ," XXX") 
val minor = value(" 未 成年" ," XXX" ) 
val youth = value( " 青年"," XXX" ) 
val middleage = value( " rH4E" ," XXX" ) 

| 

| 


import kafka. serializer. StringDecoder 

import org. apache. spark 

import org. apache. spark. rdd. RDD 

import org. apache. spark. streaming. dstream. DStream 

import org. apache. spark. streaming. kafka. KafkaUtils 

import org. apache. spark. streaming. | Seconds , StreamingContext | 


import org. apache. spark. | SparkContext , SparkConf] 


def main( args; Array | String | ) | 
val conf = new SparkConf( ). setMaster( " local" ). setAppName( " UserTag" ) 
. set( " spark. cores. max" ,"4" ) 


. set( " spark. executor. memory" ," 512M" ) 


// MK, kafka 接收 数据 
val brokers = " XXX: XX" // broker 的 地 址 
val topics =" test2" // topic 名 字 


val ssc = new StreamingContext( conf, Seconds(60) ) /实例 化 一 个 streamingContext 
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val sc = ssc. sparkContext 

val topicsSet = topics. split(" ," ). toSet 

val kafkaParams = Map| String, String | ( " metadata. broker. list" — > brokers ) 

val messages = KafkaUtils. createDirectStream| String , String , StringDecoder , StringDecoder | ( ssc, 
kafkaParams , topicsSet ) © 

val lines = messages. map(_. _2) 

// 生 成 标签 表 

val tagtable = TagTable. Createtable( ) // 生 成 标签 表 


val sqlContext = new SQLContext( sc ) 
val schemaString = " No id , sex" 
val schema; StructType = StructType( schemaString. split(" ," ) 
. map( fieldName => StructField( fieldName , StringType , true ) ) ) 
val rowRDD:RDD| Row] = sc. makeRDD(" " ). map(d => Row( ) ) 
var UserTagtable ; DataFrame = sqlContext. createDataFrame ( rowRDD , schema) 
UserTagtable. show ( ) 
Z 2 tb e e c se e e se tot te oe eae oe coke FEE vr EE — 1E 1 f AS 6] Ju BEER]. sioe secs se ec se teo se tete oe ok kk 
var identificated. number = Map| String, Long | ( ) 


J / sk tote CR ke detec a ak coke k 对 读 进 来 的 json 文件 打 标 签 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 
lines. foreachRDD( (rdd; RDD[ String] ) => | 
if( !rdd. isEmpty( ) ) | 

val sqlContext = new SQLContext( sc ) 

val Record; DataFrame = sqlContext. read. json (rdd) 

val Record, column: Array| String] = Record. columns 

val Record, Array; Array[ Row | = Record. collect( ) 

Record, Array. foreach( row => | 

val Record, Map: Map| String, Any | = row. getValuesMap| Any | ( Record, column) 

val record 2 new Array| Long] (69) 

for(i«-O to record. length — 1) record(i) 20 


// OR CR aC a i sea ak k k k AB BEAR TO SE HIE. DD. sooo seo ae oe oe kok kok k k k k 


var i number name = "" 


var 1_number_id ="" 


var i number phone = "" 


/7 产生 列表 序号 

NozNo-«l 

record( 0) 2 No 

for( (k,v) <- Record, Map) yield | 
println(" ———- calculating7 -———" ) 
k match | 
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case "id" => record(1) =1 
case "sex" => | 
record(2) =1 
if(v==" E" Jil 
record(3) =1 
| 
(v==" 女 ")| 
record(4) =1 


Case... 2»... 


1. 对 于 Spark Streaming 的 编程 模型 DStream， 它 的 运行 原理 是 什么 ? 

2 比较 一 下 Spark Streaming 和 Storm 这 两 种 流 处 理 系 统 各 自 的 优势 和 劣势 。 
3. 试 着 结合 一 个 Spark Streaming 应 用 程序 ， 通 过 源码 来 跟 踊 它 的 执行 流程 。 
4. 对 于 本 章 在 实例 演示 部 分 列 出 的 四 种 操作 ， 请 实际 操作 实践 。 


sey = Spark GraphX 


图 的 定义 和 应 用 

Spark GraphX 简介 

Spark GraphX 架构 

Spark GraphX 图 操作 实例 
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图 的 定义 和 应 用 


8.1.1 图 的 定义 
图 是 由 知 干 给 定 的 顶点 及 连接 两 点 的 边 所 构成 的 图 形 ， 这 种 图 形 通 常用 来 描述 某 些 事物 


之 间 的 菜 种 特定 关系 ， 用 顶点 代表 事物 ， 用 连接 两 点 的 边 表示 相应 两 个 事物 之 间 的 关系 。 图 
是 图 论 的 基本 人 研究 对 象 。 

图 可 以 分 为 有 向 图 、 无 向 图 和 单 图 。 如 果 给 图 的 每 条 边 规定 一 个 方 徊 ， 那 么 得 到 的 图 称 
为 有 问 图 。 在 有 癌 图 中 ， 与 一 个 结 扣 相 关联 的 边 有 出 边 和 入 边 之 分 。 相 有 反 ， 边 没有 方 问 的 图 
称 为 无 向 图 。 一 个 图 如 有 果 任 意 两 项 点 之 间 只 有 一 条 边 (在 有 问 图 中 为 两 项 点 之 间 每 个 方向 
只 有 一 条 边 )， 边 集中 不 含 环 ， 则 称 为 单 图 。 

如 图 8-1 所 示 ， 分 别 对 应 了 有 向 图 、 无 向 图 以 及 一 个 无 咎 的 单 图 的 简单 示例 。 


Vi Vi Vi 
V2 V2 m V3 Vy ra V3 
V3 Va Va 


图 8-1 有 向 图 、 无 向 图 以 及 单 图 的 示例 


图 的 存储 结构 除了 有 要 存储 图 中 各 个 顶点 的 本 身 信息 外 ， 同 时 还 要 存储 顶点 与 顶点 之 间 的 
MARA 〈 边 的 信息 ) ， 因 此 ， 图 的 结构 比较 复 杀 ， 很 难以 数据 元 素 在 存储 区 中 的 物理 位 置 
来 表示 元 系 之 间 的 关系 ,但 也 正 是 由 于 其 任意 的 特性 ， 故 物理 表示 方法 很 多 。 常 用 的 图 的 存 
储 结构 有 邻接 和 矩阵、 邻接 表 、 十 字 链 表 和 邻接 多 重 表 。 

下 面 看 一 下 关于 图 的 一 些 基 本 术语 。 

e 阶 (Order): 图 G 中 顶点 (vertex) R V 的 大 小 称 作 图 G 的 阶 。 

e FR] (Sub - Graph): 当 图 G'=(V',E')， 其 中 V' 包 含 于 V,E' 包 含 于 EE， 则 G'E 

图 G =(VY,E) 的 子 图 。 每 个 图 都 是 本 身 的 子 图 。 

e 生成 子 图 (Spanning Sub - Graph): 指 满足 条 件 V(G') 2 V(G) RS G 的 子 图 C。 

e 导出 子 图 (Induced Subgraph) : 以 图 G 的 顶点 集 V 的 非 空子 集 V1 MIU sa fi. DAVIS 
MAZE V1 中 的 全 体 边 为 边 集 的 GITE, NR VI 导出 的 导出 子 图 ; 以 图 G 的 边 集 
E 的 非 空 子 集 EL 为 边 集 ， 以 EL 中 边关 联 的 顶点 的 全 体 为 顶点 集 的 G 的 子 图 ， 称 为 
El 导出 的 导出 子 图 。 

e 度 (Degree): 一 个 顶点 的 度 是 指 与 该 顶点 相关 联 的 边 的 条 数 ， 顶 点 Y 的 度 记 作 d(v)。 

e AE (In - degree) 和 出 度 (Out - degree) : 对 于 有 向 图 来 说 ,一 个 顶点 的 度 可 细 分 
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为 人 度 和 出 度 。 一 个 顶点 的 人 度 是 指 与 其 关联 的 各 边 之 中 ， 以 其 为 终点 的 边 数 ; 出 度 
则 是 相对 的 概念 ， 指 以 该 顶点 为 起 点 的 边 数 。 

e AM (Loop): 奉 一 条 边 的 两 个 顶点 为 同一 顶点 ， 则 此 边 称 作 目 环 。 

© Bie (Path): Mu S] v 的 一 条 路 径 是 指 一 个 序列 v0 eL v] 2,2, ek vk, 其 中 si CG) 
的 顶点 为 vi 及 vi-1, 上 称 作 路 径 的 长 度 。 如 果 它 的 起 止 项 点 相同 ,该 路 径 是 “ 闭 ” 
AY, 反之 ， 则 称 为 “ 开 ” 的 。 一 条 路 径 称 为 一 简单 路 径 (Simple Path), WREKE P 
除 起 始 与 终止 顶点 可 以 重合 外 ， 所 有 顶点 两 两 不 等 。 

e 行 迹 〈Trace) : 如 果 路 径 P(u,v) 中 的 边 各 不 相同 ， 则 该 路 径 称 为 u 到 v 的 一 条 行 迹 。 

e 轨道 (Track) : 如 果 路 径 P(u,v) 中 的 顶点 各 不 相同 ， 则 该 路 径 称 为 u 到 v 的 一 条 
轨道 。 

e 闭 的 行 迹 称 作 回 路 (Circuit)， 闭 的 轨道 称 作 圈 (Cycle)。 现 存 文件 中 的 命名 并 无 统 
一 标准 ， 比 如 为 一 种 定义 是 : walk 对 应 上 述 的 path, path 对 应 上 述 的 track, Trail 对 
hy trace 5 

e 桥 (Bridge): 奋 去 掉 一 条 边 ， 便 会 使 得 整个 图 不 连通 ， 该 边 称 为 桥 。 


图 的 应 用 

图 与 图 算法 、 图 像 等 的 结合 可 以 应 用 于 很 多 领域 ， 比 如 基于 图 可 以 使 用 PageRank 算法 
对 社交 网 络 和 微 博 用 户 的 影响 力 进 行 判断 ;图 和 图 像 的 结合 可 以 对 交通 状况 进行 监控 ; 基于 
图 的 图 像 可 以 在 生物 医疗 上 进行 锻 齿 X 线 图 像 分 割 、 细 胞 追踪 等 方面 的 研究 。 下 面 我 们 人 简 
单 介 绍 一 下 基于 PageRank 算法 对 社交 网 络 ( 比如 新 浪 微 博 ) 用 户 的 影响 力 进 行 判断 。 

社交 网 络 作 为 一 个 全 新 的 互联 网 交友 平台 与 信息 传播 平台 ， 每 天 都 有 海量 数据 在 这 个 平 
台 上 上 发布。 社交 网 络 是 一 个 虚拟 社会 网 络 ， 它 由 许多 结 点 构成 ， 是 现实 社会 在 网 络 上 的 体现 
(这 些 结 点 对 应 者 我 们 图 中 的 顶点 )。 每 个 结 点 都 代表 了 现实 生活 中 的 一 个 人 或 者 一 个 组 织 ， 
结 点 之 间 的 好 友 关 系 也 是 现实 社会 中 的 社会 关系 (这 些 社会 关系 对 应 大 图 中 的 边 )。 在 这 个 
虚拟 社会 中 ， 人 们 从 事 着 大 量 的 社交 活动 ， 如 交友 、 发 布 消息 、 关 注 好 友 状 态 与 分 享 视频 
等 。 在 社交 网 络 的 平台 上 ， 人 们 可 以 分 享 自己 的 心情 、 关 注 朋 友 的 状态 以 及 了 解 一 些 热门 话 
题 等 。 

以 著名 的 社交 媒体 新 浪 微 博 为 例 ， 分 别 从 以 下 几 个 方面 描述 计算 用 户 的 影响 力 ， 并 给 出 
影响 力 的 排名 信息 。 

(1) 确定 决定 用 户 的 影响 力 的 因素 : 一 个 用 户 的 影响 力 ， 可 以 通过 其 他 用 户 对 其 是 否 
关注 以 及 对 其 发 布 信息 的 感 兴趣 的 程度 来 确定 ， 其 他 用 户 对 其 发 布 信息 的 感 兴趣 程度 可 以 通 
过 对 其 发 布 的 信息 有 传播 性 的 处 理 动作 来 确定 。 一 个 用 户 对 信息 的 处 理 动作 主要 有 转发 、 浏 
览 、 评 价 与 原创 等 ， 其 中 对 信息 传播 起 到 作用 的 只 有 用 户 的 转发 行为 。 

(2) 获取 信息 传播 图 : 跟踪 信息 被 传播 的 路 径 ， 可 以 得 到 对 应 的 传播 网 络 结构 图 ;为 
了 得 到 构建 信息 传播 图 的 数据 ， 进 而 分 析 用 户 的 影响 力 ， 需 要 通过 新 浪 微 博 网 络 官方 提供 的 
API， 从 新 滔 微 博 网 络 的 海量 信息 中 获取 用 户 微 博 数据 ， 对 这 些 数据 进行 预 处 理 ， 得 到 我 们 
分 析 用 户 影响 力 所 需 的 用 户 信息 传播 图 。 

(3) 确定 用 于 计算 用 户 影响 力 的 算法 : 新 浪 微 博 中 信息 传播 的 网 络 结 构图 类 似 于 Web 


页 面 的 网 络 结构 。 而 当前 评估 Web 页 面 的 权威 性 或 者 影响 力 的 算法 有 PageRank 算法 、HITS 
算法 等 。 其 中 PageRank 算法 是 Google 的 创始 人 提出 的 ， 基 于 该 算法 ， 许 多 学 者 给 出 了 许多 


改进 算法 。 可 以 使 用 这 些 算 法 来 评 佑 社交 网 络 中 用 户 的 影响 力 。 
(4) 使 用 选择 的 PageRank 及 其 改进 算法 ， 结 合用 户 之 间 的 关注 度数 学 模型 ， 迭 代 计 算 
用 户 的 影响 力 ， 并 根据 影响 力 给 出 用 户 影响 力 的 排名 。 
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Spark GraphX 是 基于 Spark 的 分 布 式 图 计算 子 框架 ， 它 是 常用 图 算法 在 Spark 上 的 并 行 
化 实现 ， 并 且 它 提供 了 图 计算 中 用 于 图 和 图 并 行 计算 的 API， 可 以 认为 它 是 GraphLab 和 Pre- 
gel 在 Spark 上 的 重 写 及 优化 ， 它 是 Spark 生态 圈 中 非常 重要 的 组 件 。 其 中 ，GraphLab 是 由 
CMU 〈 卡 内 基 梅 隆 大 学 ) 的 Select 实验 室 在 2010 年 提出 的 一 个 基于 图 像 处 理 模型 的 开源 图 
计算 框架 ,框架 使 用 C++ 语言 开发 实现 ; 而 Pregel 是 一 个 用 于 分 布 式 图 计算 的 计算 框架 ， 
主要 用 于 图 遍历 (BFS) 、 最 短路 径 (SSSP) PageRank 计算 等 ,Pregel 采用 了 BSP 模型 ， 即 
"Mg" “通信 ” -“ 同 步 ”的 模式 。 

目前 已 经 有 很 多 基于 图 的 并 行 计 算 框架 ， 比 如 基于 BSP (Bulk Synchronous message Pass- 
ing， 批 量 同步 消息 传递 ) 模型 的 Pregel, Giraph, HAMA, 3E GAS 模型 ( 邻居 更 新 模型 ) 
的 GraphLab。Spark GraphX 同样 是 基于 GAS 模型 的 。GAS 模型 是 以 边 为 中 心 ， 对 顶点 进行 
切割 并 将 项 点 分 配给 集群 中 各 个 结 点 进行 存储 的 。 

对 于 基于 BSP 模型 的 图 计算 框架 ， 如 Pregel 图 计算 框架 ， 在 图 处 理 任务 时 要 经 过 一 系 
列 的 迭代 步 又 来 实现 ， 这 些 迭 代步 又 也 就 是 超 步 ( SuperStep ) 。 在 一 个 超 步 中 , 所 有 的 进程 
并 行 执行 局 部 计算 。 一 个 超 步 可 分 为 三 个 阶段 : 本 地 计算 阶段 ,每 个 处 理 器 只 对 存储 本 地 内 
存 中 的 数据 进行 本 地 计算 ; 全 局 通信 阶段 , 对 任何 非 本 地 数据 进行 操作 ; 栅栏 同步 阶段 ,等 
待 所 有 通信 行为 的 结束 。BSP 模式 最 大 的 好 处 是 编程 简单 ， 但 由 于 其 存在 一 个 全 局 障碍 ， 使 
得 在 一 些 情况 下 其 运算 的 性 能 非常 差 。 对 于 Spark GraphX 而 言 ， 由 于 它 使 用 了 异步 的 概念 
所 以 没有 全 局 的 Barrier， 这 也 使 得 它 可 以 用 极为 简洁 的 代码 方便 地 使 用 Pregel 的 API. 

对 应 的 ，Spark GraphX 图 计算 框架 是 基于 GAS 模型 的 。 作 为 Spark 生态 圈 中 非常 重要 的 组 
f'F, TE Spark 提供 的 “One stack to rule them all” (一 栈 式 数 据 解 决 方案 ) 的 思想 指导 下 ， 
Spark GraphX 可 以 与 Spark 的 其 他 子 框架 ， 如 Spark SQL, MLlib 等 无 颖 结合 使 用 ， 例 如 我 们 可 
以 使 用 Spark SQL 进行 数据 的 ETL (Extract Transform and Load ， 提 取 转 换 加 载 ) 操作 ， 之 后 将 
操作 结 采 交 给 Spark GraphX 处 理 ， 而 Spark GraphX 在 计算 时 又 可 以 和 MLlib PEAR AG a BEA 
共同 完成 深度 数据 挖掘 等 人 工 智能 的 操作 ， 这 些 特性 都 是 其 他 图 计算 平台 无 法 比拟 的 。 


D 漳 性 分 布 式 属性 图 


如 同 Spark 本 映 有 一 个 核心 抽象 概 仿 RDD 一 样 ，Spark GraphX 的 核心 抽象 概念 是 Resili- 
ent Distributed Property Graph (弹性 分 布 式 属 性 图 )， 即 一 种 点 和 边 都 带 有 属性 的 有 问 多 重 
图 。 它 扩展 了 Spark RDD 的 抽象 ， 实 现 了 统一 表示 (Unified Representation) 。 弹 性 分 布 式 属 
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性 图 有 Table 和 Graph 两 种 视图 (如 图 8-1 所 示 )， 对 应 这 两 种 视图 只 需要 一 份 物理 存储 。 

两 种 视图 都 有 自己 独 有 的 操作 符 ， 基 于 Spark 的 RDD 可 以 很 轻松 地 进行 操作 ， 从 而 提高 了 

操作 灵活 性 和 执行 效率 。 图 8-2 给 出 了 Spark GraphX 的 Table 视图 和 Graph 视图。 

Table 视 GraphX | Graph 视图 
SCR 


一 < 


图 8-2 Spark GraphX 的 Table 视图 和 Graph 视图 


在 Spark GraphX 中 数据 处 理 的 模型 就 是 属性 图 (Property Graph) ， 一 个 属性 图 包括 市 属 
性 的 顶点 和 边 ， 其 中 这 些 属性 是 用 来 描述 项 点 和 边 的 特征 的 ， 如 图 8-3 所 示 。 


Property Graph Vertex Table 


mw | 
rin sn 
[Gone poio | 
tain, profs) 
[fsa poison | 


rxin 
stu. 


Property (E) 
Collaborator 


Advisor 
Colleague 


ansea][oD m 
See 

Som 

9 Ex 

B 


jgonzal, istoica 
pst.doc. prof. 
图 8-3 Spark GraphX 官方 提供 的 属性 图 


在 图 8-3 中 ， 分 别 给 出 了 属性 图 (Property Graph) 和 对 应 的 两 个 视图 ，Vertex Table 
(顶点 表 ) 和 Edge Table CHAR) 视图 。 其 中 ,顶点 属性 包括 名 称 和 职业 ， 边 的 属性 是 两 个 
顶点 之 间 的 关系 。 比 如 顶点 3 的 名 称 是 rxin， 职 业 是 stu。( 学 生 )。 顶 点 5 的 名 称 是 franlin, 
职业 是 prof. (教授 )。 顶 点 5 到 项 点 3 表示 的 是 5 是 3 的 Advisor (指导 教授 )。rxin 和 stu. 
表示 的 是 项 点 3 的 属性 ，Advisor 是 边 的 属性 。 顶 点 和 边 都 是 有 ID 的 ， 对 于 顶点 的 ID ， 是 由 
一 个 唯一 的 64 位 的 标识 和 从 ( VertexID) 作为 key。 而 对 于 边 来 说 有 SourcelD (MAID) 和 
DestinationID (目标 顶点 卫 ) ， 即 对 于 边 而 言 会 有 两 个 ID 来 表示 从 哪个 项 点 出 发 ， 到 哪个 顶 
点 结束 ， 用 来 表明 边 的 方向 ， 这 就 是 Property GraphX 的 表示 方法 。 如 果 把 Property 映射 到 表 
上 上 的话， 例如 在 Vertex Table 中 ID 为 3 的 Property 就 是 (rxin，student)， 而 在 Edge Table 
中 ,3 到 7 表明 边 的 Property 是 Collaborator KA, 2 到 5 是 Colleague 关系 。 更 为 重要 的 是 
Property Graph 和 Table 之 间 是 可 以 相互 转换 的 ， 在 GraphX 中 所 有 操作 的 基础 是 Table opera- 
tor 和 Graph operator， 都 是 针对 集合 进行 的 操作 。 逻 和 辑 上 的 属性 图 对 应 于 一 对 类 型 化 的 集合 
( VertexRDD| VD] fll EdgeRDD[ ED]25) ， 分 别 继承 和 优化 目 RDD[ ( VertexID, VD) | fil RDD 
| Edge[ ED] |; VertexRDD| VD ] 和 EdgeRDD[ ED |] 都 支持 额外 的 功能 来 建立 图 计算 和 利用 内 
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部 优化 。 

和 RDD 一 样 ， 属 性 图 是 不 可 变 的 、 分 布 式 的 、 容 错 的 。 图 的 值 或 者 结构 的 改变 会 对 应 
生成 一 个 新 的 图 。 注 意 ， 原 始 图 的 大 部 分 项 点 数据 和 边 数 据 都 可 以 在 新 图 中 重用 ， 用 来 减少 
数据 的 存储 成 本 。 在 容错 方面 ， 同 样 和 RDD 一 样 ， 图 中 的 每 个 分 区 可 以 在 发 生 故 障 的 情况 
下 被 重新 创建 。 


Spark GraphX 图 的 切 分 和 存储 策略 ; 
一 般 图 的 分 布 式 存 储 总 体 上 有 边 分 割 和 点 分 割 两 种 存储 方式 〈 如 图 8-3 所 示 )。2013 
年 ，GraphLab2. 0 将 其 存储 方式 由 边 分 割 变 为 点 分 割 ， 在 性 能 上 取得 重大 提升 ， 目 前 点 分 割 
的 存储 方式 基本 上 已 经 被 业界 广泛 接受 并 使 用 。 
边 分 割 和 操 分 割 的 两 种 存储 形式 如 图 8-4 所 示 。 


下 面 比 较 一 下 两 种 分 割 方式 的 优 缺 点 。 

边 分 割 (Edge - Cut) : 每 个 顶点 都 存储 一 次 ， 但 有 的 边 会 被 打 断 分 到 两 合 机 釉 上 。 这 
样 做 的 好 处 是 节省 存储 空间 ， 坏 处 是 对 图 进行 基于 边 的 计算 时 ， 对 于 一 条 两 个 顶点 被 分 到 不 
同 机 器 上 的 边 来 说 ， 要 路 机 融通 信 传 输 数据 ， 内 网 通信 流量 大 。 

点 分 割 (Vertex - Cut) : 每 条 边 只 存储 一 次 ， 都 只 会 出 现在 一 台 机 器 上 。 邻 届 多 的 点 会 
被 复制 到 多 人 台 机 器 上 ， 增 加 了 存储 开销 ， 同 时 会 引发 数据 同步 问题 。 好 处 是 可 以 大 幅 减 少 内 
网 通信 量 。 

虽然 两 种 方式 互 有 利 刺 ,但 现在 是 点 分 割 占 主流 ， 各 种 分 布 式 图 计算 框架 都 将 自己 底层 
的 存储 形式 变 成 了 点 分 割 。 主 要 原因 有 两 个 : 磁盘 价格 下 降 ， 存 储 空间 不 再 是 问题 ， 而 内 网 
的 通信 资源 没有 帘 破 性 进展 ， 集 群 计 算 时 内 网 带宽 是 宝贵 的 ， 时 间 比 磁盘 更 珍 贯 ， 这 点 就 类 
似 于 常见 的 空间 换 时 间 的 策略 ; 在 当前 的 应 用 场景 中 ， 绝 大 多 数 网 络 都 是 “无 太 度 网 络 ”， 
遵循 窜 律 分 布 ， 不同 点 的 邻居 数量 相差 非常 巧 殊 ， 而 边 分 割 会 使 那些 多 邻居 的 点 所 相连 的 边 
大 多 数 被 分 到 不 同 的 机 絮 上 ， 这 样 的 数据 分 布 会 使 得 内 网 市 党 更 加 捉襟见肘 ， 于 是 边 分 割 存 
储 方式 被 渐渐 抛弃 了 。 

SparkGraphX 的 分 布 式 存储 采用 点 分 割 的 模式 ， 它 的 特点 是 任何 一 条 边 只 会 出 现在 一 台 
机 右上 ， 每 个 点 有 可 能 分 布 到 不 同 的 机 器 上 。 通 过 调用 GraphImpl 的 PartitonBy 方法 ， 由 用 
户 指定 不 同 划分 策略 ( PartitonStrategy) 作为 PartitonBy 方法 的 参数 进行 分 割 ， 划 分 策略 会 将 
边 分 配给 各 个 EdgePartiton， 顶 点 Master (EH) 分 配 到 各 个 VertexPartiton，EdgePartition 也 
会 缓存 本 地 关联 点 的 Ghost 副本 。 划 分 策略 的 不 同 会 影响 需要 缓存 的 Ghost 副本 数量 ， 以 及 
每 个 EdgePartiton 分 配 的 边 的 均衡 程度 ， 需 要 根据 图 的 结构 特征 选取 最 佳人 策略 。 目 前 有 Edge- 
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Partition2D 、EdgePartition1D 、RandomVeertexCut 和 CanonicalRandomVertexCut 这 四 种 分 割 
策略 。 

图 8-5 展示 了 Property Graph (属性 图 ) 采取 EdgePartition2D 的 划分 策略 进行 点 分 割 的 
方式 ， 可 以 看 到 对 顶点 A 和 顶点 D 切割 后 形成 了 Part. 1 和 Part. 2 两 个 边 分 区 ， 其 中 Part. 1 
中 的 顶点 A EEM, Part 2 中 的 顶点 A 是 虚 点 ，Part. 1 中 的 顶点 D 是 虚 点 ，Part 2 中 的 顶 后 
D 是 主 点 。 划 分 后 的 数据 以 RDD 的 方式 分 布 式 地 存储 在 集群 中 的 各 个 结 点 上 ， 从 表 Vertex 
Table 中 可 以 看 到 图 的 项 点 RDD (VertexRDD) 被 分 成 两 个 分 区 ， 表 Edge Table 中 可 以 看 到 
Xj RDD (EdgeRDD) 也 被 分 成 了 两 个 分 区 ， 每 个 分 区 中 记录 了 不 同 的 边 。 


图 8-5 图 的 划分 和 存储 示例 


在 图 计算 的 时 候 ， 如 有 果 顶 点 A 的 数据 发 生 了 变化 ， 可 以 先 更 新 Part. 1 中 顶点 A 的 数据 ， 
然后 将 所 有 更 新 好 的 数据 发 送 到 Part. 2 的 顶点 A 更 新 它 的 数据 。 这 样 做 的 好 处 是 在 边 的 存 
储 上 是 没有 元 余 的 ， 而 且 对 于 某 个 顶点 与 它 的 邻居 的 交互 操作 ， 只 要 满足 交换 律 和 结合 律 ， 
比如 求 顶 点 的 所 有 边 的 条 数 这 样 的 操作 ， 可 以 在 不 同 机 需 上 并 行进 行 ， 只 要 把 每 台 机 需 上 的 
结果 进行 汇总 就 可 以 了 ， 网 络 开销 也 比较 小 ， 代 价 是 每 个 顶点 可 能 要 存储 到 多 份 ， 更 新 顶点 
要 有 数据 同步 开销 。 

这 里 有 个 重要 的 概念 就 是 Routing Table (路 由 表 ) Routing Table 里 记录 着 结 点 的 路 由 
信息 ， 也 就 是 图 在 进行 计算 时 将 项 点 RDD (VertexRDD) 发 送 给 边 RDD (EdgeRDD) 的 路 
由 信息 。 这 样 做 的 好 处 是 在 有 些 图 计算 的 过 程 中 (比如 mapVertices 操作 和 mapEdges 等 操 
作 ) ， 图 的 内 部 结构 不 会 改变 ， 所 以 可 以 通过 使 用 Routing Table 重用 顶点 数据 。 考 虑 到 Rou- 
ting Table 可 能 在 图 计算 过 程 中 会 被 多 次 使 用 ， 因 此 它 在 建立 后 即 被 缓存 起 来 。 在 图 8-5 中 ， 
表 Vertex Table 中 的 一 个 Partition 对 应 着 Routing Table 中 的 一 个 Partition, Routing Table 记录 
了 一 个 顶点 会 涉及 哪些 Edge Table Partition ( 边 分 区 ) 。 

最 后 需要 强调 的 一 点 是 ， 图 的 Table View 和 Graph View 两 种 视图 底层 共用 的 物理 数据 
由 VertexRDD 和 EdgeRDD 这 两 个 RDD 组 成 ， 点 和 边 实际 都 不 是 以 表 Collection| tuple | 的 形 


f Spark 核心 源码 分 析 与 开发 实战 


式 存储 的 ， 而 是 由 VertexPartiton/EdgePartition 在 内 部 存储 一 个 带 索 引 结 构 的 分 片 数 据 块 ， 以 
加 速 不 同 视图 下 的 遍历 速度 。 不 变 的 索引 结构 在 RDD 转换 过 程 中 是 共用 的 ， 降 低 了 计算 和 
存储 的 开销 。 


| Spark GraphX 图 的 操作 


Spark GraphX 统一 了 Table 视图 和 Graph 视图 ， 所 以 对 Graph 视图 的 所 有 操作 ， 最 终 都 
会 转换 成 其 关联 的 Table 视图 的 RDD 操作 。 这 样 对 一 个 图 的 计算 ， 最 终 在 逻辑 上 等 价 于 一 
系列 的 RDD 的 transformation (转换 ) 过 程 。Spark GraphX 的 Graph 类 和 GraphOps 类 提供 了 
丰富 的 图 计算 操作 的 实现 方法 ， 通 过 这 些 计 算 操作 可 以 形成 新 的 图 。Spark GraphX 的 图 的 操 
作 主 要 分 为 下 面 几 大 类 。 

1. Spark GraphX 图 的 构建 操作 

Spark GraphX 中 提供 了 以 下 几 种 方法 来 构建 弹性 分 布 式 属性 图 。 

e Graph 类 的 fromEdgeTuples( ) 方 法 。 

e Graph 类 的 fromEdges( ) 方 法 。 

e Graph 类 的 apply( ) 方 法 。 

e GraphLoader 类 的 edgeListFile( ) 方 法 。 

下 面 给 出 各 个 方法 的 具体 使 用 方法 。 

(1) Graph 类 提供 的 fromEdgeTuples( ) 方 法 如 下 所 示 。 


def fromEdgeTuples[ VD ] ( rawEdges: RDD| ( VertexId , VertexId ) | , defaultValue; VD , uniqueEdges : Op- 
tion| PartitionStrategy | = None , edgeStorageLevel ; StorageLevel = StorageLevel. MEMORY. ONLY , vertexS- 
torageLevel ; StorageLevel = StorageLevel. MEMORY. ONLY ) ( implicitarg0 ; ClassTag| VD ] ) : Graph| VD, 
Int | 


该 方法 从 于 以 一 个 顶点 ID (Vertex id) 对 的 格式 进行 编码 的 边 (Edge) 的 集合 中 ， 构 
建 出 一 个 Graph。 

其 中 各 个 参数 的 含义 如 下 : 

e 参数 rawEdges 指 的 是 一 系列 由 元 组 ( 源 项 点 ID, 目的 项 点 ID) 组 成 的 边 。 

e 参数 defaultValue 是 顶点 属性 的 默认 值 ， 在 创建 图 的 时 候 会 自动 创建 边 中 所 存在 的 顶 
点 并 设置 它 的 属性 为 默认 值 。 

e 参数 uniqueEdges 表示 的 是 分 区 策略 ， 默 认 是 None， 如 果 在 调用 fromEdgeTuples ( ) 77 
法 时 传人 了 uniqueEdges 的 值 则 会 对 生成 的 图 进行 分 区 操作 ， 并 且 图 中 重复 的 边 将 会 
被 合并 ， 重 复 的 边 的 属性 值 会 相 加 得 到 合并 后 的 属性 值 。 

e 参数 edgeStorageLevel 和 vertexStorageLevel 分 别 指 的 是 边 和 顶点 的 存储 策略 ， 默 认 都 是 
Storagelevel. MEMORY ONLY, 

(2) Graph 类 提供 的 fromEdges( ) 方 法 如 下 所 示 。 

def fromEdges[ VD ED] ( edges; RDD[ Edge [ ED] ] , defaultValue: VD , edgeStoragel evel ; StorageLevel = 


StorageLevel. MEMORY ONLY , vertexStorageLevel : StorageLevel = StorageLevel. MEMORY, ONLY ) ( im- 
plicit arg0 ; ClassTag| VD | ,argl :ClassTag| ED | ) : Graph[ VD, ED] 
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该 方法 用 于 从 一 个 以 边 (Edge) 为 元 素 的 RDD 中 ,构建 出 一 个 Graph; 
其 中 各 个 参数 的 含义 如 下 : 
e 参数 edges 指 的 是 含有 一 系列 边 的 RDD， 这 里 的 边 不 仅 包括 边 的 源 顶 点 和 目的 顶点 的 
膏 息 ， 还 包括 边 的 属性 。 > 
e 参数 defaultValue 是 顶点 属性 的 默认 值 。 
e 参数 edgeStorageLevel 和 vertexStorageLevel 分 别 指 的 是 边 和 顶点 的 存储 策略 ， 默 认 都 是 
Storagelevel. MEMORY ONLY, 


(3) Graph 类 提供 的 apply( ) 方 法 如 下 所 示 。 


def apply| VD, ED | ( vertices: RDD[ ( VertexId, VD) | , edges: RDD[ Edge| ED | | , defaultVertexAttr; VD 

= null. asInstanceOf| VD | , edgeStorageLevel ; StorageLevel = StorageLevel. MEMORY. ONLY , vertexStor- 
ageLevel : StorageLevel = StorageLevel. MEMORY, ONLY ) (implicit arg0; ClassTag| VD | , argl ; ClassTag 
[ED] ) :Graph| VD,ED | 


该 方法 用 于 从 一 个 以 顶点 ID (Vertex Id) 为 元 素 的 RDD 和 边 (Edge) HICK KJ RDD 
中 ， 构 建 出 一 个 Craph。 
其 中 各 个 参数 的 含义 如 下 : 
e 参数 vertices 指 的 是 一 组 顶点 RDD| VertexId, VD], FLA, VertexId 是 顶点 的 ID ，VD 
是 顶点 的 属性 。 
e 参数 edges 指 的 是 一 组 边 RDD[ Edge[ ED] ] ED 是 边 的 属性 。 
参数 defaultVertexAttr 是 顶点 属性 的 默认 值 ， 当 顶点 在 边 RDD 中 存在 但 在 顶点 RDD 中 
不 存在 时 ， 为 这 种 类 型 顶点 的 默认 值 。 
e 参数 edgeStorageLevel 和 vertexStorageLevel 分 别 指 的 是 边 和 顶点 的 存储 策略 ， 默 认 都 是 
Storagelevel. MEMORY ONLY, 
(4) GraphLoader 类 提供 了 从 外 部 文件 系统 读 取 文件 加 载 成 图 的 方法 edgeListFile() ， 其 
中 读 取 的 文件 内 部 是 一 系列 邻接 列表 对 〈 源 项 点 耳 ， 目 的 顶点 ID). edgeListFile( ) 方 法 如 
BB. 


def edgeListFile ( sc ; SparkContext , path : String , canonicalOrientation ; Boolean = false , numEdgePartitions : 
Int = - 1, edgeStorageLevel: StorageLevel = StorageLevel. MEMORY _ ONLY, vertexStorageLevel ; Stor- 
ageLevel = StorageLevel. MEMORY ONLY) :Graph| Int, Int | 


该 方法 用 于 通过 加 载 外 部 文件 系统 中 的 、 包 含 边 的 列表 的 文件 ， 构 建 出 一 个 Graph, 

其 中 各 个 参数 的 含义 如 下 : 

e 参数 sc 指 的 就 是 SparkContext 上 下 文 对 象 。 

e 参数 path 指 的 是 文件 的 存储 路 径 。 

e 参数 canonicalOrientation 指 的 是 邻接 列表 对 〈 源 顶点 ID， 目 的 顶点 ID) 所 对 应 的 边 是 
GAT A] (srcId < dstId) ， 默 认 值 false; 如 果 是 有 方向 的 即 canonicalOrientation 的 值 
设置 为 tue， 那 么 只 有 在 源 顶 点 的 ID 大 于 目标 项 点 的 ID 的 时 候 ， 邻 接 列 表 对 才 是 有 
效 的 。 

参数 numEdgePartitions 指 的 是 边 RDD 的 分 区 大 小 ， 默 认 设 置 为 -1， 这 时 指 的 是 采用 
系统 默认 的 并 行 度 (系统 的 并 行 度 的 值 是 由 参数 spark. default. parallelism 来 指定 的 ) 。 
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e 参数 edgeStorageLevel 和 vertexStorageLevel 分 别 指 的 是 边 和 顶点 的 存储 策略 ， 默 认 都 是 
Storagelevel. MEMORY ONLY, 

2. Spark GraphX 的 属性 操作 

Spark GraphX 的 属性 操作 包括 获取 属性 图 的 顶点 集 、 边 集 、 三 元 组 Triplet RERE, X 
些 获 取 属 性 的 方法 主要 在 Graph 和 GraphOps 两 个 类 中 提供 。 

Graph 提供 的 获取 属性 的 方法 主要 有 以 下 几 种 。 

(1) Graph 的 vertices 方法 : Graph. vertices 返回 的 是 一 个 包含 一 组 顶点 (顶点 ID, Tor 
属性 ) 的 VertexRDD。 代 码 如 下 : 


val vertices; VertexRDD| VD | 


An RDD containing the vertices and their associated attributes. 


(2) Graph 的 edges 方法 : Graph. edges 返回 的 是 一 个 包含 一 组 边 〈 源 顶点 ID， 目 的 顶 
点 ID， 边 的 属性 ) 的 EdgeRDD。 代 码 如 下 : 


val edges: EdgeRDD| ED | 


An RDD containing the edges and their associated attributes. 


(3) Graph 的 triplets 方法 : Graph. triplets 返回 的 是 一 个 RDD | EdgeTriplet| VD, ED | | , 
该 RDD 内 部 包含 了 一 组 合并 了 边 ( 源 项 点 ID， 目的 顶点 DD， 边 的 属性 )、 源 项 点 属性 和 目 
的 顶点 属性 的 EdgeTripletL VD ,EDj]。 代 码 如 下 : 


Lazy val triplets; RDD[ EdgeTriplet| VD,ED | | 


Return a RDD that brings edges together with their source and destination vertices. 


GraphOps 类 提供 了 一 系列 图 操作 的 扩展 方法 ， 主 要 有 以 下 几 种 。 
(1) GraphOps 的 numEdges 方法 : GraphOps. numEdges 返回 图 中 边 的 数量 。 代 码 如 下 : 


lazy val numEdges : Long 


The number of edges in the graph. 


(2) GraphOps 的 numVertices 方法 : GraphOps. numVertices 返回 的 是 图 中 顶点 的 数量 。 
代码 如 下 : 


lazy val numVertices ; Long 


The number of vertices in the graph. 


(3) GraphOps 的 degrees 方法 : GraphOps. degrees 返回 的 是 一 个 包含 图 中 每 个 顶点 的 出 
入 度 之 和 的 VertexRDD， 其 中 孤立 的 顶点 不 会 出 现在 结果 之 中 。 代 码 如 下 : 


lazy val degrees: VertexRDD{ Int | 
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The degree of each vertex in the graph. 


(4) GraphOps 的 inDegrees 方法 : GraphOps. inDegrees 返回 的 是 一 个 包含 图 中 每 个 顶点 
的 入 度 的 VertexRDD， 其 中 无 人 度 的 项 点 不 会 出 现在 结果 之 中 。 代 码 如 下 : 


lazy val inDegrees: VertexRDD[ Int | 


The in - degree of each vertex in the graph. 


(5) GraphOps 的 outDegrees 方法 : GraphOps. outDegrees 返回 的 是 一 个 包含 图 中 每 个 顶 
点 的 出 度 的 VertexRDD， 其 中 无 出 度 的 顶点 不 会 出 现在 结 采 之 中 。 代 码 如 下 : 


lazy val outDegrees: VertexRDD| Int | 


The out — degree of each vertex in the graph. 


3. Spark GraphX 的 转换 操作 
Spark GraphX 的 转换 操作 包括 项 点 属性 转换 、 边 属性 转换 等 操作 ， 主 要 在 Graph 和 Gra- 
phOps 两 个 类 中 提供 。 
Graph 类 提供 的 转换 方法 主要 有 以 下 几 种 。 
(1) Graph 的 mapVertices( ) 方 法 : Graph 的 mapVertices( ) 方 法 用 于 对 图 中 每 个 顶点 的 属 
TE (VD) 进行 转换 ， 生 成 新 的 顶点 属性 (VD2), ， 这 样 也 就 生成 了 一 个 新 的 图 。 代 码 如 下 : 
Teemaa V E N a DS D oara ee Do ND 
VD2 | = null) :Graph[ VD2, ED | 


Transforms each vertex attribute in the graph using the map function. 


(2) Graph 的 mapEdges( ) 方 法 : Graph 的 mapEdges ( ) 方 法 用 于 对 图 中 每 条 边 的 属性 
(ED) 进行 转换 ， 生 成 新 的 边 属 性 (ED2) ， 这 样 也 就 生成 了 一 个 新 的 图 。 代 码 如 下 : 


def mapEdges| ED2 | (map; ( Edge| ED ] ) S ED2) (implicit arg0 : ClassTag| ED2 | ) : Graph| VD ,ED2 | 


Transforms each edge attribute in the graph using the map function. 


(3) Graph 的 mapTriplets( ) 方 法 : Graph 的 mapTriplets( ) 方 法 通过 使 用 它 的 参数 map PRI 
数 来 作用 于 图 中 边 的 属性 (ED)、 边 的 源 顶 点 属性 (VD) 和 目的 顶点 属性 (VD), ， 转 换 得 
到 ED2， 进 而 生成 新 的 图 Graph| VD ,ED2] 。 代 码 如 下 : 
def mapTriplets [ ED2 ] (map; ( EdgeTriplet[ VD, ED] ) =ED2) (implicit argü ; ClassTag[ ED2 ] ) ; Graph 
[ VD, ED2 | 
Transforms each edge attribute using the map function, passing it the adjacent vertex attributes as 


well. 


例如 在 初始 化 边 的 属性 时 ， 如 有 果 边 的 属性 是 由 边 的 源 项 点 属性 和 目的 项 点 属性 计算 结 
决定 的 ， 我 们 就 可 以 使 用 以 下 伪 代 人 码 进行 转换 : 


valrawGraph ; Graph| Int, Int | = someLoadFunction( ) 


e 
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val graph = rawGraph. mapTriplets| Int] ( edge => edge. src. data — edge. dst. data) , 


在 这 里 map ŽE edge => edge. src. data - edge. dst. data， 也 就 是 说 边 的 属性 值 是 边 
源 项 点 属性 值 减 去 目的 项 点 属性 值 后 得 到 的 。 

(4) 根据 分 区 策略 对 图 中 的 边 进行 分 多， 其 中 参数 partitionStrategy 指 的 是 要 选择 的 分 区 
策略 ， H 前 有 EdgePartition2D, EdgePartitionl D, RandomVeertexCut 和 CanonicalRandomVer- 
texCut 这 四 种 分 区 (A13). 策略 。 代 码 如 下 : 


def partitionBy( partitionStrategy ; PartitionStrategy ) : Graph| VD ,ED | 


Repartitions the edges in the graph according to partitionStrategy. 


GraphOps 类 提供 的 转换 操作 如 下 。 
GraphOps 类 提供 了 filter( ) 方 法 对 图 进行 过 滤 操 作 。 在 方法 中 ， 首 先 会 使 用 preprocess 
( 预 处 理 函 数 ) 对 图 的 顶点 属性 (VD) 和 边 的 属性 (ED2) 进行 转换 操作 ， 生 成 新 的 顶点 
属性 (VD2) 和 边 的 属性 (ED2)， 然 后 分 别 在 新 生成 的 边 属性 和 顶点 属性 上 使 用 epred px 
数 和 vpred 函数 进行 过 滤 操 作 ， 最 后 返回 一 个 原 图 过 滤 后 的 子 图 。 代 码 如 下 : 
def filter[ VD2 , ED2 ] ( preprocess ; ( Graph[ VD, ED] ) =>Graph[ VD2 , ED2 ] , epred: ( EdgeTriplet[ VD2, 


ED2 | ) 3 Boolean = ( x; EdgeTriplet| VD2, ED2] ) => true , vpred; ( VertexId, VD2) 2 Boolean = ( v; Ver- 
texId, d: VD2) => true) (implicit arg0 ; ClassTag| VD2 | ,argl : ClassTag| ED2 | ) : Graph| VD ,ED | 


Filter the graph by computing some values to filter on, and applying the predicates. 
例如 我 们 在 一 个 图 中 移 除 出 度 Coutdegree) 为 0 的 顶点 ， 可 以 使 用 以 下 伪 代 码 来 实现 : 


graph. filter( graph => | 
val degrees: VertexRDD|[ Int | = graph. outDegrees 
graph. outerJoinVertices ( degrees) | ( vid, data, deg) => 
deg. getOrElse( 0) 
| 
| ,vpred = ( vid; VertexId , deg:Int) => deg >0) 
经 过 这 个 过 滤 操 作 后 ， 返 回 的 是 一 个 由 出 度 大 于 0 的 顶点 构成 的 图 。 
4. Spark Graph 的 结构 操作 
Spark Graph 的 结构 操作 包括 修改 属性 图 的 边 的 方向 、 获 取 属 性 图 子 图 、 过 滤 属 性 图 等 
变更 属性 图 结构 的 方法 ， 主 要 有 以 下 几 种。 
(1) Graph 类 中 的 reverse( ) 方 法 : Graph 类 中 的 reverse( ) 方 法 用 来 反 转 图 中 所 有 边 的 方 
问 ， 例 如 图 中 某 条 边 的 源 顶 点 是 A， 目 的 顶点 是 B， 反 转 后 该 边 的 源 顶 点 是 B， 目 的 顶点 是 
A。 代 码 如 下 : 


def reverse; Graph[ VD, ED] 


Reverses all edges in the graph. 


(2) Graph 类 中 的 subgraph( ) 方 法 : Graph 的 subgraph( ) 方 法 ， 通 过 对 图 中 的 边 和 顶点 
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分 别 使 用 epred 函数 和 vpred 函数 来 生成 一 个 子 图 。 代 码 如 下 : 


def subgraph( epred: ( EdgeTriplet| VD , ED ] ) 2 Boolean = x => true, vpred ; ( VertexId , VD) — Boolean = 
(v,d) => true) :Graph[ VD,ED | 


Restricts the graph to only the vertices and edges satisfying the predicates. 


其 中 各 个 参数 的 含义 如 下 所 示 。 
e 参数 epred PRU ZG] [IR EdgeTriplet[ VD ,ED j 中 的 边 数据 〈 源 顶点 ID 、 目 的 顶点 ID, 
边 属 性 ) 和 顶点 属性 进行 过 小 。 

e 参数 vpred 图 数 是 对 图 的 顶点 属性 进行 过 滤 。 

(3) Graph 的 mask( ) 方 法 : Graph 的 mask ( ) 方 法 用 来 在 图 中 过 小 出 在 other 图 中 也 存在 
的 顶点 和 边 ， 返 回 一 个 新 的 图 ， 也 就 是 说 在 新 的 图 中 保留 的 是 原 图 在 other 图 中 包含 的 顶点 
和 边 。 这 里 特别 需要 注意 的 一 点 是 ， 对 于 新 图 中 的 顶点 属性 和 边 的 属性 保留 的 是 原 图 中 的 
值 。 代 码 如 下 : 


def mask | VD2, ED2 | ( other: Graph | VD2, ED2 |) (implicit arg0: ClassTag | VD2 | , argl: ClassTag 
[ ED2 | ) :Graph| VD, ED | 


Restricts the graph to only the vertices and edges that are also inother, but keeps the attributes from 
this graph. 


(4) Graph 的 groupEdges( ) 方 法 : Graph 的 groupEdges ( ) 方 法 用 来 将 图 中 两 个 顶点 之 间 
的 多 条 边 合并 成 一 条 ， 为 了 保证 结果 的 正确 性 ， 图 必须 首先 使 用 Crpah 的 ) 方 法 
进行 分 区 操作 。 其 中 参数 merge 国 数 除了 用 来 合并 两 个 顶点 之 间 的 多 条 边 为 一 条 ， 还 使 用 交 
换 律 和 结合 律 来 合并 重复 边 的 属性 。 代 码 如 下 : 


def groupEdges ( merge; ( ED, ED) SED) :Graph[ VD,ED | 


Merges multiple edges between two vertices into a single edge. 


5. Spark GraphX 的 连接 操作 

Spark GraphX 的 连接 操作 主要 在 Graph 类 中 提供 ， 包 括 joinVertices( ) 方 法 和 outerJoinVe- 
rtices( ) 方 法 。 

(1) Graph 类 提供 的 joinVertices( ) 方 法 : 在 GraphOps 类 中 定义 了 joinVertices( ) 方 法 ， 
使 用 该 方法 可 以 将 图 中 的 顶点 与 输入 的 RDDL ( VertexId,U)] 根 据 项 点 ID 的 值 进行 连接 操 
作 ， 并 过 滤 掉 图 中 存在 但 输入 的 RDD 中 不 存在 的 项 点， 然后 使 用 mapFune 函数 作用 于 连接 
好 的 数据 项 ， 产 生 新 的 顶点 数据 ， 进 而 生成 一 个 新 的 图 。 这 里 需要 注意 的 一 点 是 ， 如 有 果 被 连 
接 的 RDD[ ( VertexId , U) ] 不 包含 原 图 中 某 些 顶点 的 需要 更 新 的 数据 ， 那 么 在 新 图 中 就 会 使 
用 原 图 中 的 旧 数 据 。 代 码 如 下 : 


def joinVertices| U | (table; RDD[ ( VertexId , U) ] ) (mapFunc: ( VertexId, VD, U) 2 VD) (implicit arg0 ; 
ClassTag| U | ) : Graph[ VD, ED | 


Join the vertices with an RDD and then apply a function from the the vertex and RDD entry to a new ver- 


e 
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tex value. 


这 个 方法 常用 来 通过 外 部 文件 提供 的 数据 来 更 新 原 图 中 的 顶点 的 顶点 数据 ， 例 如 我 们 先 
加 载 一 个 外 部 文件 构成 一 个 图 ， 然 后 求 出 包含 了 图 中 所 有 顶点 出 度 的 VertexRDD， 最 后 对 图 
使 用 joinVertices( ) 方 法 进行 连接 操作 并 更 新 图 中 的 顶点 数据 ， 我们 可 以 用 以 下 伪 代 人 码 来 
实现 : 


val rawGraph : Graph| Int, Int | = GraphLoader. edgeListFile( sc," webgraph" ). mapVertices((_,_) => 
0) val outDeg = rawGraph. outDegrees val graph = rawGraph. joinVertices[ Int | ( outDeg) ( ( _, _, out- 
Deg) => outDeg) 。 


经 过 上 述 代码 的 操作 ， 生 成 了 一 个 更 新 过 顶点 数据 的 新 图 。 

(2) Graph 类 提供 的 outerJoinVertices( ) 方 法 : 在 GraphOps 类 中 定义 了 outerJoinVertices( ) 
方法 ， 它 的 作用 类 似 于 GraphOps 中 的 joinVertices( ) 方 法 ， 也 是 对 图 中 的 顶点 数据 和 外 部 的 
RDD| ( VertexId,U) ] 进 行 连接 操作 ， 然 后 使 用 mapFune 函数 作用 于 连接 好 的 数据 项 ， 产 生 新 
的 顶点 数据 ， 进 而 生成 一 个 新 的 图 。 不 同 的 一 点 是 输入 的 RDD[ ( Vertexld,U) ] 应 包含 图 中 
所 有 顶点 的 VertexId， 如 果 不 满足 ， 则 mapFune 函数 的 输入 为 None。 代 人 码 如 下 : 


def outerJoinVertices| U , VD2 | ( other; RDD| ( VertexId , U) | ) ( mapFunc: ( VertexId , VD , Option| U] ) 2 
VD2) (implicit arg0 ; ClassTag| U | , arg]; ClassTag| VD2] ,eq: = : = | VD, VD2] = null) ; Graph| VD2, 
ED] 


Joins the vertices with entries in thetable RDD and merges the results using mapFunc. 
我 们 同样 可 以 使 用 以 下 伪 代 码 来 实现 : 


val rawGraph : Graph[ _,_ | = Graph. textFile(" webgraph" ) val outDeg: RDD| ( VertexId, Int) | = raw- 
Graph. outDegrees val graph = rawGraph. outerJoinVertices ( outDeg) | ( vid, data, optDeg) = > opt- 
Deg. getOrElse(0) | o 


这 里 的 mapFune pki ZI Ie: ( vid, data, optDeg) => optDeg. getOrElse (0) ， 也 就 是 说 如 果 输 入 
的 RDD[ ( VertexId, U) ] 不 存在 vid (图 中 的 顶点 ID) Bf, optDeg 接受 到 的 输入 值 是 None. 

6. Spark GraphxX 的 聚合 操作 

SparkGraphX 的 聚合 操作 主要 在 Graph 和 GraphOps 两 个 类 中 提供 。 

(1) GraphOps 类 的 collectNeighbors( ) 方 法 : GraphOps 类 的 collectNeighbors ( ) 方法 用 来 
收集 每 个 顶点 的 相 邻 顶点 的 数据 ， 返 回 的 是 一 系列 Array | ( VertexId , VD) ] 构 成 的 VertexRDD。 
代码 如 下 : 


def collectNeighbors ( edgeDirection ; EdgeDirection ) : VertexRDD| Array[ ( VertexId , VD) | | 


Collect the neighbor vertex attributes for each vertex. 


其 中 : 
e Array| (Vertexld, VD) ] 是 由 每 个 顶点 的 相 邻 顶点 ID 和 相 邻 顶点 属性 组 成 的 数组 。 震 
要 注意 的 是 ， 当 图 中 茶 个 顶点 的 出 人 度 较 大 时 ， 在 单一 位 置 会 占用 很 大 的 存储 空间 。 
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e 参数 edgeDirection 指 的 是 控制 收集 方向 ， 比 如 要 收集 的 是 顶点 的 目的 顶点 数据 还 是 顶 
点 的 源 顶 点 数据 。 
(2) GraphOps 类 的 collecetNeighborIds( ) 方 法 : GraphOps 类 的 collectNeighborlIds ( ) 方 法 用 
于 收集 每 个 相 邻 顶点 的 ID 数据 ， 返 回 的 是 一 系列 Array [ Vertexld ] 构成 的 VertexRDD。 代 码 G) 
如 下 : 


def collectNeighborlds( edgeDirection : EdgeDirection) : VertexRDD[ Array| Vertexld | | 


Collect the neighbor vertex ids for each vertex. 


其 中 : 

e Array[ VertexId | 是 由 每 个 顶点 的 相 邻 顶点 ID 组 成 的 数组 。 

e 参数 edgeDirection 同样 指 的 是 控制 收集 方向 。 

(3) Graph 类 提供 的 聚合 操作 。mapReduceTriplets ( ) 方 法， 这 是 GraphX 中 最 核心 和 强 
大 的 一 个 接口 。 该 方法 将 用 户 定义 的 mapFune 函数 作为 输入 参数 ， 并 将 mapFunc 函数 作用 
于 图 中 的 每 个 EdgeTriplet[ VD ,ED] ， 生 成 一 个 或 者 多 个 消息 , 消息 以 EdgeTriplet| VD, ED | X 
联 的 两 个 项 点 中 的 任意 一 个 或 两 个 为 目的 项 点 (也 就 是 说 文 持 消息 发 往 EdgeTriplet| VD, 
ED | RR 点 或 目的 顶点 ) 。 接 着 会 使 用 用 户 定 义 的 reduceFune. 函数 将 发 送 到 同一 个 目的 项 
点 的 消息 进行 合并 ， 生 成 发 送 给 该 顶点 的 消息 。 最 后 返回 的 是 一 个 VertexRDD [A], ERA 
所 有 以 每 个 顶点 聚合 后 的 消息 〈 类 型 为 A) ， 没 有 收 到 消息 的 顶点 不 包含 在 返回 的 Ver- 
texRDD 。 

需要 注意 的 是 ，mapReduceTriplets ( ) 方 法 需要 一 个 附加 的 可 选 参数 activeSetOptOption ， 
它 通 过 选取 一 些 活 跃 顶点 来 对 图 中 的 部 分 项 点 进行 操作 (也 就 是 说 mapFune 函数 仅仅 作用 
于 那些 在 活跃 顶点 集合 中 的 顶点 ) ， 同 时 参数 activeSetOptOption 中 的 EdgeDirection 指定 了 
mapFunc 函数 计算 时 收集 的 方向 。 如 果 EdgeDirection 指定 的 方 回 是 站 ， 则 用 户 定 义 的 map- 
Func 函数 将 仅仅 作用 于 目的 顶点 在 活跃 顶点 集中 的 EdgeTriplet[ VD,ED] ;如 果 方向 是 out, 
则 该 mapFunc 函数 将 仅仅 作用 在 那些 源 项 点 在 活跃 项 点 集中 的 EdgeTriplet| VD, ED ] ; 如 采 
方向 是 either， 则 mapFune 函数 将 仅 作用 于 源 顶 点 或 目的 顶点 在 活跃 顶点 集中 的 EdgeTriplet 
[ VD,ED | ; 如 果 方 向 是 both, Jl) mapFunc 函数 将 作用 于 两 个 顶点 都 在 活跃 顶点 集中 的 Edge- 
TripletLVD,ED]|。 同 时 要 注意 活跃 顶点 集合 中 的 顶点 必须 来 自 图 的 顶点 。 

代码 如 下 : 

dn ed A nap ne ti nl v0 ii O mA ade: 


(A,A) SA ,activeSetOpt : Option [ ( VertexRDD| _] , EdgeDirection ) |) (implicit arg0: ClassTag[ A | ) : 
VertexRDD| A | 


Aggregates values from the neighboring edges and vertices of each vertex. 


7. Spark GraphX 的 缓存 操作 

Spark GraphX 的 缓存 操作 由 Graph 类 提供 ， 主 要 有 以 下 几 种 。 

(1) Graph 类 的 cache( ) 方 法 : cache( ) 方 法 用 来 缓存 图 中 的 顶点 和 边 的 数据 ， 是 persist( ) 
的 默认 绥 存 策略 的 快捷 方法 ， 即 对 应 的 缓存 策略 是 StorageLevel MEMORY. ONLY, (R 
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如 下 : 


def cache( ) : Graph| VD ,ED | 


Caches the vertices and edges associated with this graph at the previously — specified target storage levels , 


which default toMEMORY ONLY. 


(2) Graph 类 的 persist( ) 方 法 : persist ( ) 用 来 持久 化 图 的 顶点 和 边 的 数据 ， 上 默认 的 持久 
化 方式 是 StorageLevel. MEMORY_ONLY， 用 户 可 以 通过 传递 适合 自己 的 持久 化 方式 (缓存 守 
Wr) 来 存 取 数据 。 代 码 如 下 : 


def persist( newLevel : StorageLevel = StorageLevel. MEMORY, ONLY) :Graph[ VD ,ED | 


Caches the vertices and edges associated with this graph at the specified storage level, ignoring any target 


storage levels previously set. 


(3) Graph 类 的 unpersist( ) 方 法 : unpersist( ) 方 法 用 来 取消 图 的 顶点 和 边 的 数据 的 持久 
化 (BAF) 。 代 码 如 下 : 


def unpersist( blocking: Boolean = true) : Graph[ VD,ED | 


Uncaches both vertices and edges of this graph. 


(4) Graph 类 的 unpersistVertices( ) 方法: 使 用 unpersistVertices ( ) 方 法 后 将 不 再 持久 化 
(SF) 顶点 的 数据 ， 但 是 边 的 数据 会 保留 。 代 码 如 下 : 


def unpersistVertices( blocking: Boolean = true) : Graph[ VD, ED | 


Uncaches only the vertices of this graph, leaving the edges alone. 


Spark GraphX 架构 


SparkGraphX 的 架构 共 分 为 三 层 ( 如 图 8-6 所 示 )。 

(1) 模型 层 : 在 Spark GraphX 中 基于 Spark 的 RDD 实现 了 Pregel 计算 模型 。 

(2) 接口 实现 层 : Graph 类 是 Spark GraphX 的 核心 类 ， 在 Graph 类 内 部 提供 了 val verti- 
ces; VertexRDD| VD], val edges; EdgeRDD | ED |, val triplets; RDD [ EdgeTriplet| VD, ED | | 这 
三 个 属性 对 VertexRDD EdgeRDD, RDD[ EdgeTriplet[ VD, ED ] ] 三 个 基本 数据 类 型 进行 引 
FA. GraphImpl 类 是 Graph 类 的 具体 实现 子 类 ， 在 GraphImpl 中 override (775) 了 Graph 的 
很 多 方法 ， 同 时 提供 了 apply 方法 用 来 简化 Graph 的 创建 。GraphOps 类 扩展 了 Graph 类 的 功 
能 ， 结 合 Scala 语言 本 里 的 隐 式 转换 功能 ，Graph 对 象 可 以 直接 调用 GraphOps 类 中 的 方法 。 
在 Spark GraphX 的 接口 实现 层 里 ， 还 有 Spark GraphX 的 PartitionStrategy (分 区 策略 ) ， 在 后 
面 的 小 节 里 我 们 会 结合 源码 讲解 四 个 主要 的 分 区 策略 。 

(3) 图 算法 层 : 在 Spark GraphX 中 基于 Pregel 模型 实现 了 一 些 篆 用 的 图 算法 。 包 括 


第 8 章 Spark GraphX 


图 算法 层 PageRank SVDPlusPlus TriangleCount ConnectedCom StronglyConnected 
ponents Components 


HAJH 
ES G 
GraphOps ————- S MÀ GraphImpl 


接口 实现 层 PdgeRDD RDD[EdgeTriplet] 


PartitionStrategy EdgeTriplet 
MessageToPartition EdgePartition RoutingTablePratition | | ReplicatedVertex View 


图 8-6 Spark GraphX 架构 网 


PageRank, SVDPlusPlus, TriangleCount, ConncetedComponents 和 StronglyConnected Compo- 
nents 等 。 


Pregel 图 计算 框架 


1. Pregel 简介 

Pregel 是 Google 公司 于 2010 年 推出 的 一 个 用 于 分 布 式 图 计算 的 计算 框架 ， 主 要 用 于 图 
遍历 (BFS) 、 最 短路 径 (ShortestPaths) 、PageRank 等 图 算法 的 使 用 。Pregel 借鉴 MapReduce 
的 思想 ， 提 出 了 “ 像 顶 点 一 样 思考 (Think Like A Vertex)” 的 图 计算 模式 ， 用 户 使 用 它 时 
不 需要 考虑 并 行 分 布 式 计 算 的 细节 ， 只 需要 实现 一 个 顶点 更 新 函数 ， 然 后 在 该 顶点 上 不 断 地 
进行 算法 迭代 和 数据 同步 。Pregel 采用 的 是 基于 顶点 的 边 分 割 ， 然 后 将 图 数据 分 成 硅 干 个 分 
区 存储 到 各 个 结 点 的 模式 ， 其 中 每 个 分 区 包含 的 是 一 组 顶点 和 以 这 组 顶点 为 源 顶 点 的 边 ， 结 
点 之 间 通 过 发 送 消息 来 完成 操作 ， 图 数据 的 同步 机 制 采 用 的 是 BSP 模型 (整体 同步 并 行 计 
算 模 型 ) 。 

2. BSP 模型 

对 于 BSP 模型 在 数据 同步 方面 的 处 理 思想 ， 我 们 可 以 结合 图 8-7 P 

(1) Processors 指 的 是 并 行 计算 进程 ， 它 对 应 到 集群 中 的 多 个 结 点 ， 每 个 结 点 可 以 有 多 
个 Processor; 

(2) LocalComputation 就 是 单个 Processor 的 计算 ， 每 个 Processor 都 会 切 分 一 些 结 点 作 
计算 ; 

(3) Communication 指 的 是 Processor 之 间 的 通讯 。 图 计算 往往 需要 做 些 递归 或 是 使 用 全 

局 变量 ， 在 BSP 模型 中 ， 对 图 结 点 的 访问 分 布 到 了 不 同 的 Processor $, 并且 往往 哪怕 是 关 

系 紧密 具有 局 部 聚 类 特点 的 结 点 也 未 必 会 分 布 到 同 个 Processor 或 同一 个 集群 结 点 上 ， 所 有 
需要 用 到 的 数据 都 需要 通过 Processor 之 间 的 消息 传递 来 实现 同步 ; 

(4) BarrierSynchronization 又 叫 障碍 同步 或 栅栏 同步 。 每 一 次 同步 也 是 一 个 超 步 的 完成 
和 下 一 个 超 步 的 开始 ; 
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(5) Superstep (EF), ， 这 是 BSP 的 一 次 计算 迭代 ， 拿 图 的 广度 优先 遍历 来 举例 ， 从 起 
始 结 点 每 往 前 步 进 一 层 对 应 一 个 超 步 ; 

(6) 程序 该 什么 时 候 结 束 是 由 程序 自己 控制 ,一 个 作业 可 以 选 出 一 个 Proceessor 作为 
Master ， 每 个 Processor 每 完成 一 个 Superstep 都 问 Master 反馈 完成 情况 ，Master 在 N 个 Super- 
step 之 后 发 现 所 有 Processor 都 没有 计算 可 做 了 ， 便 通知 所 有 Processor 结束 并 退出 任务 。 


Processors 


(计算 进程 ) 


Local 
Computation 


(本 地 计算 ) 


Communication 
(通讯 ) 
Barrier 
Synchronization 


(障碍 同步 ) 


图 8-7 BSP 模型 图 


3. Pregel 计算 过 程 

在 了 解 了 BSP 模型 的 处 理 思想 后 ， 我 们 继续 分 析 Pregel 的 计算 过 程 。 在 Pregel 的 计算 模 
型 中 ， 输 入 的 数据 是 一 个 有 向 图 ， 该 有 向 图 的 每 一 个 顶点 都 有 一 个 相应 的 vertex identifier 
(顶点 ID) 和 顶点 属性 ， 这 些 顶 点 属性 可 以 被 修改 ， 其 初始 值 由 用 户 定义 。 每 一 条 有 问 边 都 
和 其 源 项 点 关联 ， 并 且 也 拥有 一 些 用 户 定义 的 属性 值 ， 并 同时 还 记录 了 其 目的 顶点 的 ID。 

一 个 典型 的 Pregel 计算 过 程 如 下 。 

(1) 读 取 输入 ， 初 始 化 该 图 ; 

(2) 当 图 被 初始 化 好 后 ， 运 行 一 系列 的 Supersteps 〈 超 步 ) ， 每 一 次 Superstep WEE 
的 角度 上 独立 运行 ， 直 到 整个 计算 结束 ， 输 出 结果 。 

在 每 一 次 的 Superstep 中 ， 顶 点 的 计算 都 是 并 行 的 ， 每 一 次 执行 用 户 定 义 的 同一 个 函数 。 
每 个 顶点 可 以 修改 其 自身 的 状态 信息 或 以 它 为 起 点 的 出 边 的 信息 ， 从 前 序 Superstep 中 接受 
消息 ， 并 传送 给 其 后 续 Superstep ， 或 者 修改 整个 图 的 拓扑 结构 。 边 在 这 种 计算 模式 中 并 不 
是 核心 对 象 ， 没 有 相应 的 计算 运行 在 其 上 。 

算法 是 否 能 够 结束 取决 于 是 否 所 有 的 顶点 都 已 经 “Vote” (WR) 标识 其 自身 达到 
“halt” RE (FRESE ILIRAS) T. TE Superstep 0， 所 m 点 都 会 被 置 于 Active (WER) 状 
态 ， 每 一 个 Active 的 顶点 都 会 在 计算 执行 的 某 一 次 的 Superstep 中 被 计算 。 顶 点 通过 将 其 自 
身 的 状态 设置 成 “halt” 来 表示 它 已 经 不 再 Active。 这 就 表示 该 顶点 没有 进一步 的 计算 需要 
进行 ， 而 Pregel 框架 将 不 会 在 接 下 来 的 Superstep 中 计算 该 项 点 ， 除 非 该 项 点 收 到 一 个 其 他 
Superstep 传送 的 消息 。 如 果 顶 点 接收 到 Message (消息 ) TAX Message 将 该 顶点 重新 置 Ac- 
tive, 那么 在 随后 的 计算 中 该 项 点 必须 在 此 通过 投票 停止 设置 自己 的 状态 为 停止 状态 。 整 个 
计算 在 所 有 顶点 都 达到 “Inactive”( 活 动 中 ) 状态 ， 并且 没有 Message CHE) cen MM 
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候 宣告 结束 。 这 种 简单 的 状态 机 制 可 以 参考 图 8-8 中 的 描述 。 


Vote to halt 


CIE eD S 


Message received 
KI 8-8 Vertex 状态 机 


整个 Pregel 程序 的 输出 是 所 有 顶点 输出 的 集合 。 通 党 来 说 Pregel 程序 的 输出 是 跟 输 入 是 
同 构 的 有 回 图 ,但 是 并 非 一 定 是 这 样 ， 因 为 在 计算 的 过 程 中 ， 可 以 对 顶点 和 边 进行 添加 和 删 
除 。 比 如 一 个 聚 类 算法 ,就 有 可 能 从 一 个 大 图 中 选 出 满足 需求 的 几 个 不 相连 的 点 ; 一 个 对 图 
的 挖掘 算法 就 可 能 仅仅 是 输出 了 从 图 中 挖掘 出 来 的 聚合 数据 等 。 

4. Pregel 在 Spark GraphX 中 的 实现 

在 Spark GraphX 的 GraphOps 类 中 提供 了 一 个 pregel ( ) 方 法 来 实现 Pregel 模型 ， 需 要 注 
意 的 是 Spark GraphX 中 的 Pregel 模型 并 不 严格 如 循 标 准 的 Pregel 模型 ， 它 是 一 个 参考 了 GAS 
模型 (邻居 更 新 模型 ) 后 改进 的 模型 。 下 面 我 们 可 以 结合 GraphOps 类 源码 中 的 pregel () 77 
法 来 分 析 一 下 在 Spark GraphX 中 Pregel 模型 的 实现 。pregel( ) 方 法 的 代码 如 下 : 


defpregel| A : ClassTag | ( 
initialMsg:A, 


maxlterations : Int = Int. MaxValue, 
activeDirection ; EdgeDirection 2 EdgeDirection. Either) ( 
vprog: ( VertexId, VD, A) 2» VD, 
sendMsg : EdgeTriplet| VD, ED] => Iterator[ ( VertexId, A) | , 
mergeMse:(A,A) 2» A) 
:Graph[ VD,ED ] = | 
Pregel( graph, initialMsg , maxIterations , activeDirection ) ( vprog , sendMsg , mergeMsg ) 


| 


pregel( ) 是 一 个 柯 里 化 方法 ， 在 第 二 个 参数 列表 中 的 参数 是 三 个 函数 vprog、sendMsg 和 
mergeMsg, ， 而 标准 的 Pregel 模型 在 这 种 情况 下 接受 的 是 一 个 messageList (消息 列表 ) ， 这 也 
是 基于 MapReduceTriplets( ) 方 法 的 Pregel 模型 和 标准 的 Pregel 的 最 大 区 别 ， 它 不 会 在 单个 顶 
点 上 进行 消息 的 遍历 ， 而 是 将 多 个 Ghost (A) 副本 收 到 的 消息 聚合 后 ， 发 送 给 Master 
(EA) 副本 ， 在 使 用 vprog 函数 来 更 新 顶点 的 属性 值 ， 消 息 的 接受 和 发 送 都 被 目 动 并 行 化 
处 理 , 不 用 担心 超级 结 点 (指出 入 上 度 大 的 结 点 ) 的 问题 。 

在 pregel ( ) 方法 中 会 通过 Pregel ( graph, initialMsg, maxlterations , activeDirection ) ( vprog, 
sendMsg , mergeMsg ) 这 行 代码 调用 Pregel 类 的 apply ) 方 法 继续 完成 实现 。 其 中 参数 graph 18 
的 是 向 Pregel 模型 中 传人 的 图 数据 ; 参数 initialMsg 指 的 是 初始 化 状态 下 疝 Pregel 模型 发 送 
的 消息 ; 参数 maxlterations 指 的 是 Pregel 模型 最 大 的 迭代 次 数 ， 当 执行 Pregel 模型 达到 max- 
Iterations 设置 的 次 数 后 如 果 程 序 仍然 没有 收敛 则 会 强制 停止 执行 ; 参数 activeDirection 指 的 
是 sendMsg 函数 在 计算 时 的 收集 方向 ，sendMsg 函数 会 根据 源 顶 点 、 目 的 顶点 和 收集 方向 来 
判断 EdgeTriplet[ VD, ED |] 是 否 处 于 活跃 状态 来 进行 计算 。 在 第 2 段 参 数 中 ，vprog 、sendMsg 
和 mergeMsg 都 是 用 户 自 定义 函数 ， 其 中 vprog 函数 在 每 个 顶点 上 执行 ， 对 输入 的 数据 进行 计 
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算 后 生成 新 的 顶点 属性 值 ; sendMsg 函数 在 每 个 活跃 的 EdgeTripletL VD, ED] 上 运行 ， 生 成 发 
送 给 下 一 次 迭代 的 消息 ; mergeMsg 函数 用 于 将 发 送 给 顶点 的 两 条 消息 进行 合并 为 一 条 消息 。 
下 面 我 们 看 一 下 Pregel 的 apply ) 方 法 的 源码 实现 : 
def apply[ VD: ClassTag ,ED ; ClassTag , A; ClassTag ] 
( graph ; Graph[ VD, ED] , 
initialMsg:A, 


maxlterations ; Int = Int. MaxValue, 
activeDirection ; EdgeDirection 2 EdgeDirection. Either) 
( vprog: ( VertexId, VD, A) 2» VD, 
sendMsg : EdgeTriplet| VD, ED] => Iterator[ ( VertexId, A) ] , 
mergeMsg:(A,A) 2» A) 
:Graph| VD ,ED] = 


/ / Wt WU BEIT BAF 
var g = graph. mapVertices( ( vid, vdata) => vprog( vid, vdata , initialMsg) ). cache( ) 
// compute the messages (调用 Graph 的 mapReduceTriplets ( ) 方 法 返回 的 是 一 个 VertexRDD 
[A].) 
var messages = g. mapReduceTriplets ( sendMsg , mergeMsg ) 
var activeMessages = messages. count( ) 
// Loop 
var prevG ;: Graph| VD, ED | = null 
var 1 =0 
// 判 断 是 否 有 新 的 消息 生成 ,是 否 超过 最 大 的 迭代 次 数 
while( activeMessages >0 && i < maxlterations) | 
// Receive the messages. Vertices that didn't get any messages do not appear innewVerts. 
// 调 用 innerJoin( ) 方 法 将 项 点 RDD 和 接受 到 的 消息 进行 连接 ,生成 新 的 项 点 RDD 
val newVerts = g. vertices. innerJoin( messages ) ( vprog). cache( ) 
// Update the graph with the new vertices. 
prevG =g 
// fii FA outerJoinVertices ( ) 方 法 连接 newVerts ,生成 新 的 顶点 属性 
g =g. outerJoinVertices( newVerts) | ( vid,old,newOpt) => newOpt. getOrElse( old) | 
g. cache( ) 


val oldMessages = messages 
// Send new messages. Vertices that didn't get any messages don't appear innewVerts,so don't 
// get to send messages. We must cache messages so it can be materialized on the next line, 
// allowing us touncache the previous iteration. 
messages = g. mapReduceTriplets ( sendMsg, mergeMsg, Some ( ( newVerts , activeDirection ) ) ) 
. cache( ) 
// The call to count( ) materializes messages’, newVerts', and the vertices of &: This 
// hidesoldMessages ( depended on by newVerts) , newVerts( depended on by messages) , 
//and the vertices ofprevG( depended on by newVerts , oldMessages , and the vertices of g). 
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activeMessages = messages. count( ) 
logInfo( " Pregel finished iteration " +i) 


// Unpersist the RDDs hidden by newly - materialized RDDs e 
oldMessages. unpersist( blocking = false ) 

newVerts. unpersist( blocking = false) 

prevG. unpersistVertices ( blocking = false) 

prevG. edges. unpersist( blocking = false) 

// count the iteration 


i--1 


2 
| // end of apply 


| // end of classPregel 


通过 以 上 源码 可 以 看 到 ，Spark GraphX 的 Pregel 实现 综合 了 标准 Pregel 和 GAS 模型 两 者 
的 优点 ， 接 口 相对 简单 ， 又 能 保证 性 能 ， 可 以 应 对 点 分 割 的 图 存储 模式 ， 胜 任 符合 窜 律 分 布 
的 自然 图 的 大 型 计算 。 


Spark GraphX 的 实现 


Spark GraphX 是 在 Spark Core 上 构建 的 一 个 子 系统 ， 对 GraphX 视图 的 所 有 操作 ， 最 终 
都 会 转换 成 其 关联 的 Table 视图 的 RDD 操作 。 这 样 对 一 个 图 的 计算 ， 最 终 在 逻辑 上 等 价 于 
一 系列 的 RDD 的 转换 过 程 。 因 此 ，Spark GraphX 的 属性 图 最 终 具 备 了 RDD 的 三 个 关键 特 
PE: Immutable (不 可 变性 ) Distributed (分 布 式 ) 和 Fault - Tolerance (容错 ) ， 其 中 最 关 
键 的 是 Immutable (不 可 变性 )。 逻 辑 上 ， 所 有 图 的 转换 和 操作 都 产生 了 一 个 新 图 ; 物理 上 ， 
Spark GraphX 会 有 一 定 程度 的 不 变 项 点 和 边 的 复 用 优化 ， 对 用 户 透 明 。 

Spark GraphX 的 代码 架构 非常 简洁 ，Spark GraphX 的 核心 代码 只 有 3000 多 行 ， 而 在 此 
之 上 实现 的 Pregel 模型 ， 只 要 短 短 20 多 行 。Spark GraphX 的 代码 结构 整体 如 图 8-6 所 示 ， 
其 中 大 部 分 的 实现 都 是 围绕 Partition (分 区 ) 的 优化 进行 的 ， 这 在 某 种 程度 上 说 明了 点 分 割 
的 存储 和 相应 的 计算 优化 的 确 是 图 计算 框架 的 重点 和 难点 。 

对 于 Graph, Graphlmpl 和 GraphOps 这 三 个 类 ， 我 们 在 前 面 图 的 操作 部 分 已 经 基本 分 析 
了 它们 内 部 的 主要 操作 方法 ， 下 面 我 们 主要 结合 源码 分 析 一 下 Spark GraphX 的 VertexRDD、 
EdgeRDD 和 EdgeTriplet 三 种 数据 类 型 和 点 分 割 的 四 种 PartitionStrategy 〈 分割 存储 策略 ) 。 

1. VertexRDD 

VertexRDD [ VD | 2K7 A RDD | ( VertexID, VD) | ， 并 增加 了 一 些 和 额外 的 限制 ，VertexID 
表示 的 是 顶点 的 ID 每 个 并 且 VertexID 只 出 现 一 次 。 此 外 ，VertexRDD| VD |] 表示 一 个 顶点 集 
合 ， 其 中 每 个 项 点 的 属性 是 VD。 本 质 上 VertexRDD[ VD 一 个 可 重复 使 用 的 HashMap (Meir 
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表 ) 。 利 用 VertexID 这 个 索引 可 以 快速 查找 到 需要 的 顶点 ， 对 于 VertexRDDL VD ] ， 它 提供 了 
以 下 常用 的 操作 方法 。 

(1) filter( ) 方 法 : filter( ) 方 法 用 来 过 滤 满 足 pred 函数 的 顶点 集合 。filter( ) 方 法 保留 了 
原始 VertexRDD 的 索引 结构 ， 本 质 上 是 对 每 个 VertexRDD 的 Partition 进行 计算 ， 返回 的 是 一 
个 VertexRDD。 代 码 如 下 : 


def filter( pred: ( ( VertexId, VD) ) 2 Boolean) ; VertexRDD| VD | 


Restricts the vertex set to the set of vertices satisfying the given predicate. 


(2) mapValues( ) 方 法 : mapValues( ) 方 法 是 通过 函数 {对 顶点 的 属性 (VD) 进行 操作 ， 
终 返 回 的 是 一 个 顶点 属性 是 VD2 的 VertexRDD。 代 码 如 下 : 


def mapValues| VD2 | ( f: ( VertexId, VD) 2 VD2) (implicit arg0 ; ClassTag| VD2 | ) : VertexRDD| VD2 | 


Maps each vertex attribute , additionally supplying the vertex ID. 


(3) diff( ) 方 法 : diff( ) 方 法 用 来 比较 两 个 VertexRDD 的 不 同 ， 返 回 的 是 调用 diff ( ) 的 
VertextRDD 中 存在 而 other VertexRDD 中 不 存在 的 元 素 构 成 的 新 的 VertexRDD 。 需 要 注意 的 是 
两 个 VertexRDD 中 的 顶点 ID Æ (VertexIdToIndexMap) 必须 相同 。 人 代码 如 下 : 


def diff( other; VertexRDD[ VD | ) : VertexRDD| VD | 


Hides vertices that are the same betweenthis and other; for vertices that are different, keeps the values 


from other. 


(4) innerJoin( ) Jj i: 用 来 对 具有 相同 VertexId AY VertexRDD 进行 连接 ， 并 通过 函数 
生成 新 的 顶点 属性 ， 返 回 一 个 由 在 两 个 VertexRDD 中 都 存在 的 顶点 构成 的 VertexRDD。 代 码 
如 下 : 


def innerJoin[ U, VD2 | ( other: RDD | ( VertexId , U) ] ) ( f: ( VertexId, VD, U) 2 VD2) (implicit argO ; 
ClassTag| U | ,argl : ClassTag| VD2 | ) : VertexRDD| VD2 | 


Inner joins thisVertexRDD with an RDD containing vertex attribute pairs. 


(5) aggregateUsingIndex ( ) 方法 : aggregateUsinglndex ( ) 方法 用 来 对 具有 相同 VertexID 
(顶点 ID) 的 两 个 VertextRDD 通过 函数 reduceFunc 进行 操作 。 代 码 如 下 : 


def aggregateUsingIndex | VD2 | (messages: RDD[ ( VertexId ,VD2 ) | ,reduceFunc: ( VD2, VD2) 2 VD2) 
(implicit arg0 ; ClassTag| VD2 | ) : VertexRDD[ VD2 | 


Aggregates vertices inmessages that have the same ids using reduceFunc , returning a VertexRDD co - in- 


dexed with this. 


其 中 参数 messages 指 的 是 由 目的 项 点 ID 和 它 接受 到 的 消 vi da FETA ak 的 Ver- 
texRDD, PAŽI reduceFunc 会 对 messages 中 VertexId 相同 的 属性 值 (VD2) 进行 聚合 操作 ， 
Bela 的 VD2 属性 值 会 作为 调用 aggregateUsingIndex ( ) 方法 的 VertexRDD 的 up 的 属性 值 ， 

终 返 回 的 是 一 个 由 VertexID 和 聚合 后 的 顶点 属性 值 构 成 的 VertexRDD ， 需 要 注意 的 是 ， 不 
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包含 messages 中 的 VertexId 的 顶点 将 会 被 舍弃 。 

2. EdgeRDD 

EdgeRDD [ ED, VD] 继承 自 RDD [Edge[ ED], EdgeRDD 内 的 边 是 以 点 分 割 的 方式 分 成 
不 同 的 块 来 进行 管理 的 ， 具 体 的 分 区 策略 通过 PantitionStrategy 指定 。 在 每 个 分 块 中 ， 边 属性 O) 
和 邻接 项 点 信息 分 别 存储 ， 这 使 得 更 改 边 属性 值 时 能 够 最 大 限度 的 复 用 邻接 顶点 的 信息 。 
EdgeRDD 还 提供 的 三 个 额外 的 函数 。 

(1) mapValues( ) 方 法 : mapValues( ) 方 法 是 应 用 函数 ff 于 EdgeRDD 的 边 属性 ， 只 改变 
EdgeRDD 的 边 属性 的 值 ， 而 不 改变 EdgeRDD 划分 时 的 结构 。 代 码 如 下 : 


def mapValues[ ED2 | ( f: ( Edge| ED ] ) S ED2) (implicit arg0 ; ClassTag| ED2 | ) : EdgeRDD| ED2 | 


Map the values in an edge partitioning preserving the structure but changing the values. 


(2) innerjoin( ) 方 法 : innerJoin( ) 方 法 是 对 两 个 EdgeRDD 进行 连接 操作 ， 这 里 的 两 个 
EdgeRDD 必须 是 相同 的 PartitionStrategy ( 分割 策 略 ) ， 最 后 返回 一 个 新 的 EdgeRDD, {0445 
如 下 : 


def innerJoin| ED2 , ED3 | ( other; EdgeRDD[ ED2 | ) (f: ( VertexId , VertexId , ED, ED2 ) 2 ED3) ( implicit 
arg0 ; ClassTag| ED2 | ,argl : ClassTag| ED3 | ) : EdgeRDD| ED3 | 


Inner joins thisEdgeRDD with another EdgeRDD , assuming both are partitioned using the same Partition- 


Strategy. 


其 中 新 EdgeRDD 的 边 属 性 的 值 是 通过 函数 人 得 到 的 ， 并 且 新 EdgeRDD 保留 的 是 只 有 在 
原先 两 个 EdgeRDD 都 出 现 过 的 边 。 

(3) reverse( ) 方 法 : reverse( ) 方 法 是 对 EdgeRDD 中 所 有 的 边 进行 反 转 操作 ， 也 就 是 说 
改变 EdgeRDD 中 源 项 点 和 目的 顶点 连接 的 边 的 方向 。 代 码 如 下 : 


def reverse : EdgeRDD[ ED | 


Reverse all the edges in this RDD. 


3. EdgeTriplet 

EdgeTriplet| VD, ED | 7 Spark GraphX 特有 的 一 种 数据 类 型 ， 它 是 顶点 和 边 的 结合 ， 它 继 
承 日 Edgel ED] ， 并 同时 在 类 内 部 加 入 源 顶点 的 属性 (srcAtrr) 和 目的 顶点 属性 ( dstAttr) 
言 息 作为 自己 的 属性 ， 由 于 它 的 父 类 Edgel ED ABA SIS ID、 目 的 项 点 ID 和 边 属性 ， 
所 以 一 个 Edgetriplet[ VD, ED 具有 源 顶 点 的 ID 和 属性 、 目 的 项 点 TD 和 属性 以 及 边 属性 ， 本 
质 上 来 讲 EdgeTtriplet 是 对 Edge[ VD ] 的 一 层 封 装 。EdgeTripletL VD , ED J 这 种 数据 类 型 的 优势 
就 是 在 图 的 数据 遍历 方面 提供 了 方便 。 我 们 可 以 看 下 以 下 伪 代 码 中 EdgeTriplet VD, ED ] 的 
使 用 ， 下 面 的 伪 代 码 是 通过 图 的 triplets 操作 生成 一 个 RDD| EdgeTriplet| VD, ED] ] 对 象 ， 然 
后 调用 RDD 的 collect( ) 方 法 生成 一 个 单机 的 Scala 数组 ， 该 数组 中 的 元 素 是 有 一 组 Edge- 
Triplet| VD , ED] 对 象 组 成 的 ， 这 样 就 可 以 通过 EdgeTriplet[ VD, ED ] 遍 历 边 的 源 顶 点 属性 和 目 
的 顶点 属性 。 
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//triplets 操作 ,((sreld,sreAttr ) , ( dstld ,dstAttr) ,attr) 
println(" 列 出 所 有 的 tripltes:") 
for( triplet <— graph. triplets. collect) | 


println ( s"$ | triplet. srcAttr.. 1] likes$ | triplet. dstAttr 1j" ) 


| 


4. PartitionStrategy 

前 面 的 小 节 我 们 已 经 简单 介绍 过 Spark GraphX 是 采用 点 分 割 的 模式 对 图 的 数据 进行 分 
布 式 存储 的 ， 在 使 用 点 分 割 的 时 候 可 以 使 用 不 同 的 PartitionStrategy (划分 策略 ) 对 图 数据 进 
行 划分 , 不 同 的 PartitionStrategy 会 影响 到 缓存 的 Ghost 副本 数量 以 及 每 个 EdgePartiton 分 配 的 
边 的 均衡 程度 等 ， 所 以 我 们 在 使 用 PartitionStrategy 时 要 结合 图 的 结构 特征 选取 最 佳 策 略 。 

PartitionStrategy 本 身 是 一 个 trait (特质 ) ， 我 们 在 使 用 它 的 时 候 ， 可 以 继承 它 然后 实现 
它 内 部 的 getPartition( ) 方 法 来 实现 目 定 义 的 划分 策略 ， 当 然 也 可 以 使 用 Spark GraphX 本 里 内 
置 的 划分 策略 ， 目 前 内 置 的 有 EdgePartition1D 、EdgePartition2D 、RandomVeertexCut 和 Canon- 
icalRandomVertexCut 这 4 种 划分 策略 。 下 面 我 们 结合 它们 的 源码 实现 一 一 介绍 每 种 划分 策略 
的 特点 。 

(1) EdgePartition1D: EdgePartition1D 是 根据 边 的 源 顶 点 ID 和 PartitionID 进行 对 图 数据 
进行 划分 的 ， 这 种 策略 可 以 将 所 有 源 顶 点 相同 的 边 放 到 一 个 分 区 里 。PartitionID 是 图 的 分 区 
大 小 的 整数 标识 ， 默 认 必 须 小 于 2°30。mixingPrime 是 一 个 固定 的 Long Int 值 ， 它 主要 用 来 划 
分 时 平衡 图 数据 使 得 数据 均匀 地 分 布 在 集群 的 结 点 上 ， 同 时 可 以 增强 数据 分 布 的 随机 性 。， 
当然 mixingPrime 无 法 从 根本 上 解决 数据 分 布 的 不 均匀 ， 只 是 减少 这 种 情况 发 生 的 概率 。 


/ xk 


* Assigns edges to partitions using only the source vertex ID ,colocating edges with the same 
* source. 
* / 
case objectEdgePartition! D extends PartitionStrategy | 
override defgetPartition ( src ; VertexId , dst ; VertexId , numParts ; PartitionID ) ; PartitionID = | 
valmixingPrime ; VertexId = 1125899906842597 L 
(math. abs( sre  mixingPrime) % numParts ). toInt 
| 
| 


(2) EdgePartition2D; EdgePartition2D 采用 的 是 二 维 的 邻接 矩阵 的 划分 方式 将 边 划 分 到 
numParts 个 分 区 中 ， 这 种 划分 方式 可 以 保证 顶点 的 复制 个 数 的 上 限 是 2 * sqrt(numParts ) 个 ， 
它 同时 会 尽 可 能 地 平衡 边 在 结 点 上 的 分 布 。EdgePartition2D 的 划分 步骤 如 下 : 首先 ，getPar- 
tition( ) 中 的 val ceilSqrtNumParts ; PartitionID = math. ceil( math. sqrt( numParts ) ). toInt 这 行 代码 
用 来 获取 分 配 箱 阵 的 平方 根 因子 ， 然后，EdgePartition2D 同样 引入 了 一 个 固定 的 Long Int (fi 
mixingPrime, ， 使 用 mixingPrime 和 ceilSqrtNumParts 进行 计算 增加 源 顶 点 ID 和 目的 项 点 ID Xi] 
分 的 随机 性 和 均匀 性 ; 最 后 通过 (col * ceilSqrtNumParts + row) % numParts 这 行 代码 把 边 均 匀 
地 划分 到 numParts 个 分 区 。 

下 面 是 EdgePartition2D 的 一 个 划分 案例 ， 即 基于 11 个 顶点 的 图 ， 并 划分 到 9 个 分 区 ， 
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具体 划分 示意 图 及 其 划分 细节 如 下 。 


/ x% 
* Assigns edges to partitions using a 2D partitioning of the sparse edge adjacency matrix, 
* guaranteeing a 2 * sqrt( numParts )" bound on vertex replication. > 
* 
* Suppose we have a graph with 11 vertices that we want to partition 


* over 9 machines. We can use the following sparse matrix representation; 


* 
* «pre» 

* DPI EI D IEEE RE RE 

* vO |PO x | P1 | P2 x | 

* vi LIIS | * | | 

* v2 IIIIII | ok | TII | 

* v3 EEEE | *o o | * | 
Ro cid c cp viU Lr A URN e EAT 
* v4 |P3 x | P4 xxx |PS xe x | 

* — v3 koo 六 | * | | 
* v6 * | dk | EEE | 

* v7 LIS | ES | * | 

Eum me EA ie e 
* v8 PO x | P7 * | PS x * | 

* v9 * | * * | | 
*  vlO * | kk | ko o x% | 
x vil * < 一 上 | II | kk | 

Ho a FT rn ean me LII Si uu LL 
* </pre > 

* 


* The edge denoted by ' E'connects ' v11 with ' v1 and is assigned to processor 'P6'. To get the 
* processor number we divide the matrix into 'sqrt( numParts )' by 'sqrt( numParts)' blocks. Notice 
* that edges adjacent to 'v11'can only be in the first column of blocks ' ( PO,P3, 

* P6)'or the last 

* row of blocks ' (P6, P7, P8)'. As a consequence we can guarantee that ' v11 ' will need to be 
* replicated to at most'2 * sqrt( numParts ) machines. 

* 

* Notice that 'PO'has many edges and as a consequence this partitioning would lead to poor 

* work balance. To improve balance we first multiply each vertex id by a large prime to 

* shuffle the vertex locations. 

* 

* One of the limitations of this approach 1s that the number of machines must either be a 

* perfect square. We partially address this limitation by computing the machine assignment to 


* the next 
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* largest perfect square and then mapping back down to the actual number of machines. 
* Unfortunately , this can also lead to work imbalance and so it is suggested that a perfect 
* square is used. 
*/ 
case objectEdgePartition2D extends PartitionStrategy | 
override defgetPartition( src ; VertexId , dst ; VertexId , numParts ; PartitionID ) ; PartitionID = | 
valceilSqrtNumParts ; PartitionID = math. ceil ( math. sqrt( numParts) ). toInt 
valmixingPrime ; VertexId = 1125899906842597L 
val col; PartitionID = ( math. abs( src * mixingPrime) 96 ceilSqrtNumParts ). toInt 
val row; PartitionID = ( math. abs( dst * mixingPrime) 96 ceilSqrtNumParts ). toInt 


(col * ceilSqrtNumParts + row) % numParts 


| 


(3) RandomVeertexCut: RandomVeertexCut 是 随机 顶点 划分 的 ， 首 先 根 据 源 顶点 ID 和 
目的 顶点 ID 进行 哈 硕 值 计 算 ， 对 求 得 的 哈 希 值 取 绝 对 值 ， 然 后 除 以 numParts 求 得 划分 个 
数 。 需 要 注意 的 是 这 样 的 划分 方式 会 将 两 个 顶点 之 间 方 向 相同 的 边 划分 到 同一 个 分 区 
Hie 


/ xk 
* Assigns edges to partitions by hashing the source and destination vertex IDs , resulting in a 
* random vertex cut thatcolocates all same - direction edges between two vertices. 
* / 
case objectRandomVertexCut extends PartitionStrategy | 
override defgetPartition ( src ; VertexId , dst ; VertexId , numParts ; PartitionID ) ; PartitionID = | 
math. abs( ( sre, dst). hashCode( ) ) % numParts 


| 


(4) CanonicalRandomVertexCut: CanonicalRandomVertexCut 的 划分 策略 和 RandomVertex- 
Cut 相似 ， 不 同 的 是 在 对 源 顶 点 ID 和 目的 顶点 ID 进行 哈 希 值 计 算 前 会 完 根据 顶点 的 ID 进行 
排序 ， 使 得 源 顶 点 ID 和 目的 顶点 ID 中 值 小 的 那个 排 在 前 面 ， 然 后 再 对 求 得 的 哈 硕 值 取 绝 对 
值 并 除 以 numParts 求 得 划分 个 数 。 这 样 做 的 好 处 就 是 可 以 将 两 个 顶点 之 间 的 所 有 边 放 在 同 
一 个 分 区 中 ， 完 全 不 用 考虑 边 的 方向 是 否 相 同 。 


/ x 


* Assigns edges to partitions by hashing the source and destination vertex IDs in a canonical 
* direction , resulting in a random vertex cut thatcolocates all edges between two vertices, 
* regardless of direction. 
* / 
case object CanonicalRandomVertexCut extendsPartitionStrategy | 
override defgetPartition ( src ; VertexId , dst ; VertexId , numParts ; PartitionID ) ; PartitionID = | 
if( src < dst). | 
math. abs( ( sre, dst). hashCode( ) ) % numParts 
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| else | 


math. abs( (dst, src). hashCode( ) ) % numParts 


基于 Prege 模型 ，Spark GraphX 提供 了 一 系列 图 算法 来 简化 任务 的 分 析 。 这 些 算 法 包含 
在 org. apache. spark. graphx. lib 包 中 (如 图 8-9 所 示 ) ， 在 GraphOps 类 中 封装 了 对 这 些 图 算 
法 进行 直接 调用 的 方法 ， 同 时 由 于 Spark 采用 了 Scala 语言 的 隐 式 转换 方法 ， 所 以 Graph 可 
以 直接 调用 GraphOps 类 中 的 这 些 方法 完成 对 图 数据 的 特殊 处 理 。 我 们 结合 图 8-4 来 分 析 一 
下 常用 的 图 算法 。 


C3 graphx [spark-graphx 2.10] 
D data 
LJ src 
© main 
[J scala 
=) org.apache.spark.graphx 
© impl 
5 lib 
®) ConnectedComponents 
9 LabelPropagation 
$ package.scala 
i) package-info.java 
9: PageRank 
© ShortestPaths 
© StronglyConnectedComponents 
® SVDPlusPlus 


®) TriangleCount 


图 8-9 Spark GraphX 中 图 算法 源码 的 目录 结构 


1. PageRank 

PageRank， 又 称 网 页 排名 ， 网 页 级 别 。 它 是 Google 专 有 的 算法 ， 用 于 衡量 特定 网 页 
相对 于 搜索 引擎 索引 中 的 其 他 网 页 而 言 的 重要 程度 。 它 由 Google 公司 的 创始 人 Larry Page 
和 Sergey Brin 在 20 世纪 90 年 代 后 期 发 明 的 。PageRank 实现 了 将 链接 价值 概念 作为 排名 
因素 。 

PageRank 把 页 面 的 链接 看 成 是 一 个 投票 ， 来 指示 该 页 面 的 重要 性 。 具 体 地 来 说 ，Pag- 
eRank 通过 互联 网 浩瀚 的 超 链接 关系 来 确定 一 个 页 面 的 等 级 ,一 个 页 面 的 超 链接 相当 于 对 该 
页 投 一 票 ， 一 个 页 面 的 PageRank 值 是 由 所 有 链 问 它 的 页 面 ( 链 入 页 面 ) 的 重要 性 经 过 递归 
算法 得 到 的 。 一 个 有 和 较 多 链 入 的 页 面 会 有 较 高 的 等 级 ， 相 反 如 采 一 个 页 面 没 有 任何 链 入 页 
面 ， 那 么 它 就 没有 等 级 。 例 如 在 Google 搜索 中 ，Google 搜索 引擎 会 把 从 A 页 面 到 B 页 面 的 
链接 解释 为 A 页 面 给 B 页 面 投票 ，Coogle 根据 投票 来 源 (其 至 来 源 的 来 源 ， 即 链接 到 A 页 
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面 的 页 面 ) 和 投票 目标 的 等 级 来 决定 新 的 等 级 。 人 简单 的 说 ， 一 个 高 等 级 的 页 面 可 以 使 其 他 
低 等 级 页 面 的 等 级 提升 。 

下 面 我 们 通过 源 代 码 看 一 下 PageRank 算法 在 Spark GraphX 中 的 实现 。 

(1) 在 GraphOps 类 中 提供 了 pageRank( ) 方 法 ， 在 pageRank ( ) 方 法 继续 调用 PageRank 
的 runUntilConvergence( ) 方 法 。 这 样 设 计 的 好 处 是 即使 我 们 不 了 解 PageRank 算法 的 具体 实 
现 ， 也 可 以 很 容易 的 去 使 用 它 进行 图 数据 的 计算 。 


/ kk 


* Run a dynamic version ofPageRank returning a graph with vertex attributes containing the 

* PageRank and edge attributes containing the normalized edge weight. 

* 

* @ see | [ org. apache. spark. graphx. lib. PageRank$#runUntilConvergence | | 

*/ 

defpageRank ( tol ; Double , resetProb : Double = 0. 15) : Graph[ Double, Double | = | 
PageRank. runUntilConvergence ( graph, tol , resetProb ) 


| 


(2) 继续 跟踪 PageRank 的 runUntilConvergence( ) 方 法 ， 在 runUntilConvergence( ) 方 法 的 
BMH, BM graph 指 的 要 使 用 PageRank 人 处理 的 图 ; 参数 tol 是 一 个 收敛 值 ， 传 人 的 这 个 值 
越 小 PageRank 计算 的 值 就 越 精确 ， 但 是 如 果 要 计算 的 图 数据 量 很 大 而 设置 的 tol 值 很 小 就 会 
产生 巨大 的 计算 任务 并 消耗 更 多 的 时 间 ， 所 以 要 结合 自己 CPU 和 内 存 的 实际 情况 来 设置 这 
个 值 ; 参数 resetProb 是 一 个 随机 重 置 的 默认 值 。 


/** 


* Run a dynamic version ofPageRank returning a graph with vertex attributes containing the 
* PageRank and edge attributes containing the normalized edge weight. 
* 
* @ tparam VD the original vertex attribute( not used ) 
* @ tparam ED the original edge attribute( not used) 
* 
* (2 param graph the graph on which to compute PageRank 
* @ param tol the tolerance allowed at convergence( smaller => more accurate). 
* @ param resetProb the random reset probability ( alpha ) 
* 
* (? return the graph containing with each vertex containing thePageRank and each edge 
* containing the normalized weight. 
* / 
def runUntilConvergence[ VD; ClassTag, ED ; ClassTag | ( 
graph: Graph[ VD , ED | , tol: Double , resetProb ; Double =0. 15) : Graph| Double, Double | = 


// 通过 PageRank 算法 要 处 理 的 图 实例 graph 初始 化 一 个 pagerank Graph 对 象 
// having weight 1/outDegree and each vertex with attribute 1. 0. 
valpagerankGraph ; Graph| ( Double , Double) , Double | = graph 
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// 关联 图 中 的 结 点 和 结 点 的 度 


. outerJoinVertices( graph. outDegrees) | 
(vid, vdata, deg) => deg. getOrElse (0) 


| e 
// 基于 每 条 边 上 的 度数 设置 权重 
. mapTriplets( e =>1.0 / e. srcAttr) 
// 设置 结 点 属性 为 PageRank 算法 的 初始 值 
. mapVertices( (id,attr) => (0. 0,0.0) ) 
. cache( ) 


// 定义 Vertex Program ,SendMessage ,messageCombiner 三 个 需要 实现 GraphX 的 PageRank 的 函数 
def vertexProgram( id: VertexlId ,attr:( Double, Double) ,msgSum:Double) :(Double,Double) = | 
/* x 当 上 一 轮 次 的 messageCombiner 函数 执行 完毕 , 则 可 以 通过 参数 msgSum 获取 上 一 轮 次 对 
这 个 顶点 的 计算 结果 值 ,通过 这 个 值 (oldPR + (1.0 -resetProb) * msgSum) 得 到 新 的 顶点 的 属 
性 。*/ 
val ( oldPR ,lastDelta) = attr 
valnewPR = oldPR + (1. 0 — resetProb) * msgSum 
( newPR , newPR - oldPR ) 
| 
// 将 用 户 数据 封装 为 (目的 顶点 ID,Value) 对 然后 分 发 到 目的 顶点 所 在 机 融 结 点 
def sendMessage( edge; EdgeTriplet[ ( Double , Double) , Double | ) = | 
if( edge. srcAttr.. 2 » tol) | 
Iterator( ( edge. dstId , edge. srcAttr. _2 * edge. attr) ) 
| else | 


Iterator. empty 


| 
// 将 顶点 收 到 的 其 他 顶点 发 送 来 的 数据 进行 聚合 操作 
def messageCombiner( a: Double , b : Double) :Double = a + b 


// 'The initial message received by all vertices inPageRank 


valinitialMessage = resetProb / (1. 0 — resetProb ) 


// 以 固定 迭代 次 数 执行 Pregel 
Pregel( pagerankGraph , initialMessage , activeDirection = EdgeDirection. Out) ( 
vertexProgram , sendMessage , messageCombiner ) 
. mapVertices( ( vid, attr) => attr. _1) 
| // end ofdeltaPageRank 


通过 以 上 代码 可 以 看 到 ， 在 runUntilConvergence ( ) 方 法 最 重要 的 还 是 vertexProgram , , 
sendMessage, , messageCombiner 这 三 个 函数 的 实现 ， 它 们 会 作为 Pregel 的 参数 传 给 Pregel Tx 
型 进行 图 数据 的 计算 。 


Spark 核心 源码 分 析 与 开发 实战 


2. SVDPlusPlus 

SVDPlusPlus, ， 就 是 指 SVD ++ 算法， 它 是 在 SVD 算法 的 基础 上 通过 利用 更 多 的 信息 衍 
生出 来 的 算法 。SVD (singular valur decomposition ， 奇 异 值 分 解法 ) ， 是 线性 代数 中 一 种 重要 
的 矩阵 分 解 ， 是 矩阵 分 析 中 正规 矩阵 西 对 角 化 的 推广 。 在 信号 处 理 、 统 计 学 等 领域 有 重要 应 
用 。 在 图 计算 中 ， 我 们 主要 用 在 进行 社交 网 络 和 推荐 系统 上 。 

例如 要 预测 用 户 A 对 一 部 电影 M 的 评分 ， 而 手 上 只 有 用 户 A 对 大 干部 电影 的 评分 和 用 
P B 对 硅 干 部 电影 的 评分 (包含 M 的 评分 ) sn] LAE] SVDPlusPlus 算法 来 进行 操作 。 它 
会 根据 已 有 的 评分 情况 ， 分 析出 评分 者 对 各 个 因子 的 喜好 程度 以 及 电影 包含 各 个 因子 的 程 
度 ， 最 后 再 反 过 来 根据 分 析 结 果 预 测评 分 。 电 影 中 的 因子 可 以 理解 成 这 些 东 西 : 电影 的 搞笑 
程度 ， 电 影 的 爱情 爱 得 死去 活 来 的 程度 ， 电 影 的 赤 ， 怖 程度 等 等 ，SVDPlusPlus 的 想法 抽象 来 
看 就 是 将 一 个 N 行 M 列 的 评分 矩阵 R CRE] [i HAS u 个 用 户 对 第 i 个 物品 的 评分 )， 分 
解 成 一 个 N 行 F 列 的 用 户 因子 矩阵 P (PLujlkj] 表 示 用 户 u 对 因子 k 的 喜好 程度 ) 和 一 个 M 
行列 的 物品 因子 矩阵 QQ (QLi][k] 表 示 第 i 个 物品 的 因子 k 的 程度 )。 用 公式 来 表示 就 是 : 
R-Ps*T(Q), R 的 元 素数 值 越 大 ， 表 示 用 户 越 喜欢 这 部 电影 。P 的 元 素数 值 越 大 ， 表 示 用 
户 越 喜 欢 对 应 的 因子 。Q 的 元 素数 值 越 大 ， 表 示 物 品 对 应 的 因子 程度 越 高 。 分 解 完 后 ， 就 能 
利用 P，Q 来 预测 用 户 A 对 某 电 影 的 评分 了 。 

3. TriangleCount 

TriangleCount， 是 指 三 角形 计数 算法 ， 当 一 个 项 点 有 两 个 相 邻 的 顶点 以 及 相 邻 顶点 之 间 
的 边 时 ， 这 个 项 点 是 一 个 三 角形 的 一 部 分 。Spark GraphX 在 TriangleCount object 中 实现 了 一 
个 三 角形 计数 算法 ， 它 计算 通过 每 个 顶点 的 三 角形 的 数量 。 需 要 注意 的 是 ， 在 计算 社交 网 络 
数据 集 的 三 角形 计数 时 ，TriangleCount 需要 边 的 方向 是 规范 的 方向 〈srcld < dstId) ， 并 且 图 
通过 Graph 类 的 partitionBy ( ) 方 法 进行 过 分 区 。 

4. ConncetedComponents 

ConncetedComponents ， 指 的 是 连通 分 文 图 算法 ， 连 通 分 文 图 算法 用 ID 标注 图 中 每 个 连 
通 分 文 ， 将 连通 分 文中 序号 最 小 的 顶点 的 ID 作为 连通 分 文 的 四 。 该 算法 是 图 深度 优先 搜索 
算法 的 另 一 重要 应 用 ， 它 可 以 将 一 个 大 图 分 解 成 多 个 连通 分 文 ， 然 后 分 别 在 各 个 联通 分 文 上 
独立 运行 计算 ， 最 后 再 根据 分 支 之 间 的 关系 将 所 有 的 解 组 合 起 来 。 例 如 ， 在 社交 网 络 中 ， 连 
通 分 支 可 以 近似 为 集群 ，Spark GraphX 在 ConnectedComponents object 中 包含 了 连通 分 支 算法 
的 实现 ,我 们 可 以 通过 ConnectedComponents object 中 run( ) 方 法 内 的 实现 来 计算 社交 网 络 数 
据 集中 的 连通 分 文 图 。 

5. StronglyConnected Components 

StronglyConnected Components, ， 指 的 是 强 连 通 分 支 算 法 ， 它 的 实现 和 Connected Compo- 
nents 算法 很 类 似 ， 不 同 在 于 它 处 理 的 对 象 是 一 个 强 连通 分 文 图 。 对 于 强 连通 分 文 ， 我 们 可 
以 可 以 理解 为 : 在 有 向 图 中 ， 如 有 果 任 意 两 个 点 能 够 互相 联系 ， 那 么 这 就 称 为 强 连通 分 文 ， 对 
于 给 定 一 个 有 向 图 ， 它 不 一 定 是 强 连通 的 ， 但 一 定 可 以 分 为 多 个 强 连 通 分 文 。 
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Spark GraphX 图 操作 实例 


SOLEO 基于 Spark GraphX 的 属性 图 的 操作 实例 


在 这 里 我 们 通过 一 个 和 Spark GraphX 官方 类 似 的 属性 图 来 进行 图 的 操作 的 演示 (如 
图 8-10), 具体 的 操作 我 们 会 在 spark - shell 环境 下 进行 演示 。 图 8-10 是 一 个 由 6 个 顶点 和 
8 条 边 组 成 的 社交 关系 的 图 ， 图 中 每 个 顶点 的 属性 包括 一 个 人 的 姓名 和 年 龄 ， 每 条 边 有 一 个 
属性 值 ， 我 们 可 以 假设 这 个 属性 值 表示 的 是 源 项 点 向 目的 顶点 追求 的 次 数 。 


Charlie 
Age:65 


> 


David Ed Fran 
Age: 42 Age: 55 Age:50 
图 8-10 Spark GraphX 属性 图 


下 面 我 们 在 一 个 SimpleGraphX object (对 象 ) 中 完整 地 列 出 了 我 们 进行 图 的 操作 时 需要 
的 代码 以 及 代码 所 表示 的 含义 ， 这 些 代 码 是 我 们 在 IntelliJ IDEA 工具 中 编写 的 ， 考 虑 到 演示 
效果 的 因素 ， 我 们 会 截取 其 中 的 关键 代码 然后 在 spark - shell 中 进行 图 操作 的 演示 。 


import org. apache. log4j. | Level , Logger } 

import org. apache. spark. | SparkContext , SparkConf] 
import org. apache. spark. graphx. _ 

import org. apache. spark. rdd. RDD 


objectSimpleGraphX | 
def main( args; Array| String] ) | 
// BE ili Hos 
Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 
Logger. getLogger( " org. eclipse. jetty. server" ). setLevel( Level. OFF) 


/设置 运行 环境 
val conf = newSparkConf( ). setAppName( " SimpleGraphX" ). setMaster( " local" ) 


val sc = newSparkContext ( conf) 


Wa spark 


// 设 置顶 点 和 边 ,注意 顶点 和 边 都 是 用 元 组 定义 的 Array 


// 顶 点 的 数据 类 型 是 VD:(String,Int) 

valvertexArray = Array( 
(1L, (" Alice" ,28) ) , 
(2145 (" Bob" ,27) ) ， 
(3L, C" Charlie" ,65) ) , 
(AL, (" David" ,42) ) , 
(5L, C Ed" ,55)), 
(6L, ("Fran" ,50) ) 

) 

// 边 的 数据 类 型 ED ; Int 

valedgeArray = Array ( 
Edge(2L,1L,7), 
Edge(2L,4L,2), 
Edge(3L,2L,4), 
Edge(3L,6L,3), 
Edge(4L,1L,1), 
Edge(5L,2L,2) , 
Edge(5L,3L,8) , 
Edge(5L,6L,3 ) 


// 构 造 vertexRDD 和 edgeRDD 


valvertexRDD : RDD| (Long, (String, Int) ) | = sc. parallelize( vertexArray ) 
valedgeRDD : RDD| Edge[ Int] | = sc. parallelize( edgeArray ) 


// 构 造 图 Graph[ VD ,ED ] 


val graph : Graph| (String, Int) , Int] = Graph( vertexRDD , edgeRDD) 


J [ie k K Gk k Gk K Gk oe k K GK aK k GK GK Gk k Gk K Gk K GK K 3k >K GK >K k >K GK aK K GK ok ok Sk GK GK fe K ok ok ok >K GK fe GK ok ok ok GK GK fe >K ok ok ok GK 2k GK ok ok ok ok ok ok 


// k o k sk k o k ok o k k k k AL os PERENE 


FK K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K 


AAA E K G K Gk K k K GK k k K Gk GK k GK GK GK k GK K Gk K GK oK oie >K Gk ok k >K Gk >K K >K ok GK ak GK GK GK K GK ok GK K GK oK GK GK ok ok GK >K K >K GK GK ok 2k GK GK ok ok ok ok ok ok 


println( " 2K 2K 2 K GK K GK K GK K GK K GK GK ok GK GK GK Gk GK Gk ok ok GK ok GK fe GK ok ok ok Gk ie GK oie ok ok ok aK 3K >K Gk ok ok ok K >K k ok ok ok 2k GK ok ake ok ok ok 


printIn(" 属 性 演示 ") 


println( " 3K K k k oo ok k k K 3k 3k 3k ok ok K K ok 3k 3k Sk ok oe ok ok ok oR ok ok ok ok ok ok ok ok ok ok ok ok ok ok ok kok 3k 3k >K Gk K K 3k 3k Gk k k k k k "! 


/L)rik— 


println(" 找 出 图 中 年 龄 大 于 30 的 顶点 方法 一 :") 


graph. vertices. filter | case( id, ( name,age) ) => age >30}. collect. foreach | 


case( id, ( name,age) ) => println( s" $name is$age" ) 


| 
// 方 法 二 


println(" 找 出 图 中 年 龄 大 于 30 的 顶点 方法 二 :") 


graph. vertices. filter( v => v. _2. 2 » 30). collect. foreach( v => println(s"$|v. 2. 1] is${v. 2. 
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S2 po 


println 


// 边 的 操作 : 找 出 图 中 属性 大 于 5 的 边 > 
println(" 找 出 图 中 属性 大 于 5 的 边 :") 
graph. edges. filter( e => e. attr > 5). collect. foreach( e => println(s"$ | e. srcld| to$ |e. dstId att$ 

| e. attr| " ) ) 


println 


//triplets 操作 , ( ( srcId , srcAttr) , (dstId, dstAttr) , attr) 
printIn( " Zi] E PER AY tripltes ; " ) 
for( triplet « — graph. triplets. collect) | 
println ( s"$ | triplet. srcAttr.. 1] likes$ | triplet. dstAttr. _1 |" ) 


| 


println 


printn(" 列 出 边 属 性 > 5 的 tripltes:" ) 
for( triplet <— graph. triplets. filter(t => t. attr » 5). collect) | 
println ( s"$ | triplet. srcAttr. 1] likes$ | triplet. dstAttr 1j" ) 


| 


println 


// Degrees 操作 

println( " $R tH Ed FP Ig A B9 E E AE 度数 :") 

def max( a; ( VertexId , Int) ,b: ( VertexId , Int) ) : ( VertexId , Int) = | 
if(a. 2»b. 2) a else b 

| 


println ( " max of outDegrees:" 


+ graph. outDegrees. reduce (max) +" max of inDegrees;" + 


graph. inDegrees. reduce( max) +" max of Degrees:" + graph. degrees. reduce( max) ) 


println 


// OCC CIC IGIGICI ICICI ICICICICICIGICIC ICICI I AICI IC ACCC AICI ICAI ARC IC AIC Cao IC a oC aR oe fc aR oe cao ca oe ca oe alco 
Ee k ce EE oaoa oaoa ooo k k k k k k k k k k k 
ME EE EEEEEEEEEETEETETETEEETETETEETETTEETETEEPETETETEEEETETEETEEPEPETETE 
println (9 s es c s ss se e took o sese se otto o o oo o o o k acai ak ak) 
printin( "转换 操作 " ) 
println ( ". st s ses t s ss se s tete o sese se oto seed oto deototetetefexototetetefejetetetetetetetelejetetetetee" ) 
println( "顶点 的 转换 操作 ,顶点 age +10." ) 
graph. mapVertices| case(id, (name,age)) => (id, ( name, age +10) ) | . vertices. collect. foreach 
(v => println(s"$|v. 2. 1j is${v._2._2}")) 
println 


println(" 边 的 转换 操作 , 边 的 属性 *2:") 


> 
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graph. mapEdges( e => e. attr * 2). edges. collect. foreach( e => println( s" $1e. srcId] to$ | e. dstId} 
att$ | e. attr} " ) ) 


println 


AN CCCI CISC ICI CISC IGG oo E ICICI I ICICI IG I ICI SCI I AI IAI I a Ca AR k k Ca 2 k k k k k k k ak k 
// s b ee ed RAI PRA (ee ee ooo k k k k k k k k k k 
// CCCI ICICI o o o oao o ICI IC IOI I SCI o ICAI I a I k k k k 2 k k k k k k k k k 
println ( "se e c s ss se se took o sese o o oo o o o k cai ak ak) 
printin( "结构 操作 " ) 
println ( "s s es c s s s se se took e sese o o oo ICICI A ICICI A AC ACA a ak ci caf cake" 
println "顶点 年 纪 »30 的 子 图 :" ) 
val subGraph = graph. subgraph( vpred = (id,vd) => vd. 2 >=30) 
println(" 子 图 所 有 顶点 :") 
subGraph. vertices. collect. foreach( v => println(s"$|v. 2. 1j is$ |v._2. 21")) 
println 
printin( "EBA WL" ) 
subGraph. edges. collect. foreach( e => println( s"$1e. sreld} to$1e. dstld] att${e. attr} " ) ) 
println 


S/R RR RR CCR CRC CR CR CC CC EE EE EE EEE II III IIIS ICI II CIC 2 HC a 


// K 3K k k Kk 3k 3K Gk 3k 3K Gk 3k K ake 3K 3k ake 3K k K ake 3K K >K 2k ok ok ok ok ok ok ok ok ok ok ok ok ok ok >K ok ok ok ok ok ok GK oie >K ake ake k akc ake k K 3K 3K >K >K 3K >K ake ak >K >K 2k 


println ( "aaao sese sk se ok se ok se ok sec o oe ok oe o o k k k k k k k kok ok ak ake ak ake |") 


println( " 连接 操作 " ) 


println ("2k sc ses s kc sse sk se ok se ok se ok ke se e se ok oe ok oe sje e oce oe ok oe ok o k k k a k k ok k ak kkk" ) 


case class User( name: String, age: Int, inDeg : Int, outDeg : Int ) 


// 创 建 一 个 新 图 ,顶点 VD 的 数据 类 型 为 User, 并 从 graph 做 类 型 转换 
valinitialUserGraph: Graph | User, Int | = graph. mapVertices | case (id, ( name, age) ) = > User 
( name ,age ,0,0) | 


//initialUserGraph 与 inDegrees , outDegrees ( RDD ) 进行 连接 ,并 修改 initialUserGraph 中 inDeg 
值 .outDeg fH 
valuserGraph = initialUserGraph. outerJoinVertices( initialUserGraph. inDegrees) | 
case( id,u, inDegOpt) => User( u. name ,u. age ,inDegOpt. getOrElse(0) ,u. outDeg) 
|. outerJoinVertices( initialUserGraph. outDegrees) | 
case( id ,u, outDegOpt) => User( u. name ,u. age ,u. inDeg, outDegOpt. getOrElse( 0) ) 


println( " 连接 图 的 属性 :" ) 
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userGraph. vertices. collect. foreach( v => println(s"$ {| v. 2. name} inDeg:$|v. _2. inDeg} out- 
Deg: $| v. 2. outDeg}" ) ) 
println 


println( "出 度 和 入 度 相同 的 人 员 :") e 
userGraph. vertices. filter | 
case(id,u) 2» u. inDeg == u. outDeg 
|. collect. foreach | 
case( id, property) => println( property. name ) 
| 


println 


S/R RRR RCAC CIC RC ACC I I AC C22 SC IC C2 2 2 KK 
x ATE 
Ue ee k ee (ee ooo k kk k k k k k k k k 


J [38 3K k k Kk 3k ok Gk ole oie Gk oe K GK oe oe GK ok oe oo K K >K 2k ok ok ok ok ok GK ok ok ok ok ok ok ok ok ok o ok ok ol ok ok ol ole >K GK ole ole GK ole k ole ole ole K >K oe K >K ak >K >K K 


println ( "6s: oe sesso de sotototototefejetetetotorefefefetetetotorefetetetetorojoteteteteteterereteteteeegee! ) 
println( " 聚合 操作 " ) 
println ("a aaao ooo o ICICICI CIC I I ACI ACC o Eo ofc fc ofc ac kkk " ) 
printin(" 找 出 年 纪 最 大 的 追求 者 :" ) 
valoldestFollower: VertexRDD| (String, Int) | = userGraph. mapReduceTriplets[ (String, Int) | ( 
// 将 源 项 点 的 属性 发 送 给 目标 顶点 ,map 过 程 
edge => Iterator( (edge. dstId , ( edge. srcAttr. name, edge. srcAttr. age) ) ) , 
// 得 到 最 大 追求 者 ,reduce 过 程 
(a,b) =>if(a._2 >b._2) a else b 


userGraph. vertices. leftJoin( oldestFollower) | (id,user,optOldestFollower) => 
optOldestFollower match | 


case None => s"$ | user. name} does not have any followers. " 


case Some( ( name,age) ) =>s"$ {name} is the oldest follower of$ | user. name}. " 


| 
|. collect. foreach | case(id,str) => println( str) | 


println 


// 找 出 追求 者 的 平均 年 纪 
printIn(" 找 出 追求 者 的 平均 年 纪 :" ) 
valaverageAge: VertexRDD| Double | = userGraph. mapReduceTriplets| ( Int, Double) | ( 
// 将 源 顶 点 的 属性 (1,Age) 发 送 给 目标 顶点 ,map 过 程 
edge => Iterator( (edge. dstId , ( 1 ,edge. srcAttr. age. toDouble) ) ) , 
// 得 到 追求 着 的 数量 和 总 年 龄 
(a,b) =>((a._l+b._ 1),(a. 2+b._2)) 
). mapValues( (id,p) =>p..2/p._1) 


a 
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userGraph. vertices. leftJoin( averageAge) | (id,user,optAverageAge) => 
optAverageAge match | 


case None =>s"${ user. name} does not have any followers. " 


case Some( avgAge) => s" The average age of $ | user. name} Vs followers is $avgAge. " 


| 
|. collect. foreach | case(id,str) => println( str) | 
println 


J [7 98 RR SRR CCCI EEEE EE AC C2 I III IC AC AC 2 IS A IC IC HC 2 2 ae 
Z sk sk sk kk bo ne nee fee eae ok 聚合 操作 ea IOI ICC o o CCC ok k 


J [8K AR HR oo aK ie oie oie oie ak ak oie oie oie oie ak oie oie oie oie ok oie oie oie oie ok ok ake oie oie oie ok oie 2k 2k oie ok oie akc oie oie ok ok oie ERER EREEREER ok ok ok ok ok ok ok 


println ("a aaao ooo o ACI ICICI o o CACC ARCA ARC RCA cic ofc feof fc ac kkk " ) 
println( " 聚合 操作 " ) 
println ("a a a a ar ICCC ICICI ICICI ACACAC Eoo o fc ofc k kkk " ) 
printlIn( " J£ i 5 到 各 项 点 的 最 短 :") 
valsourceld ; VertexId 2 5L // 定义 源 点 
valinitialGraph = graph. mapVertices( (id, ) => if( id == sourceld) 0.0 else Double. Positivelnfinity ) 
valsssp = initialGraph. pregel ( Double. Positivelnfinity ) ( 
(id, dist, newDist) => math. min( dist, newDist ) , 
triplet => | /计算 权重 
if( triplet. srcAttr + triplet. attr < triplet. dstAttr) | 
Iterator ( (triplet. dstId , triplet. srcAttr + triplet. attr ) ) 
| else | 


Iterator. empty 


| 
| , 
(a,b) => math. min(a,b) /RA EZ 
) 


println( sssp. vertices. collect. mkString( " Wn" ) ) 


sc. stop( ) 


| 


以 上 代码 可 以 直接 通过 IntelliJ IDEA 工具 进行 操作 实践 。 

l. 图 的 构建 

(1) 在 进行 图 的 构建 之 前 ， 我 们 首先 要 引入 一 些 图 操作 中 用 到 的 类 ， 比 如 org. apache. 
spark. graphx 包 下 的 Graph 等 。 在 spark - shell 的 命令 终端 输入 以 下 内 容 : 


scala > import org. apache. spark. | SparkContext , SparkConf | 
import org. apache. spark. | SparkContext , SparkConf] 
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scala > import org. apache. spark. graphx. _ 
import org. apache. spark. graphx. _ 


scala > import org. apache. spark. rdd. RDD > 
import org. apache. spark. rdd. RDD 


(2) 设置 项 点。 注意 ,顶点 是 用 元 组 定义 的 Array, 顶点 的 数据 类 型 是 VD: (String, 
Int) 。 可 以 看 到 最 终 产 生 了 一 个 类 型 为 Array[ (Long, (String, Int) ) ] 的 变量 vertexAray， 其 中 
Long 类 型 指 的 是 顶点 下,，〈《Sting,Int) 指 的 是 项 点 属性 的 类 型 。 


scala > val vertexArray = Array( 
(1L, (" Alice" ,28) ) , 
(2L, ("Bob" ,27)) , 
(3L, (" Charlie" ,65)) , 
(4L,(" David" ,42)) , 
(5L,(" Ed" ,55)), 
(6L, ("Fran" ,50) ) 
) 
vertexArray ; Array| (Long, ( String, Int) ) ] = Array ( (1, ( Alice, 28) ) , (2, (Bob,27)), (3, ( Charlie, 
65)) , (4, (David,42) ) , (5, (Ed,55) ) , (6, (Fran,50) ) ) 


(3) 设置 边 。 注 意 ， 边 是 用 一 组 Edge 对 象 组 成 的 Array ， 边 的 数据 类 型 是 边 的 数据 类 型 
ED; Int。 可 以 看 到 在 spark - shell 交互 界面 中 输入 设置 边 的 代码 后 产后 了 一 个 Array 
| org. apache. spark. graphx. Edge [Int] | 类 型 的 edgeArray 变量 。 


scala > val edgeArray = Array ( 
Edge(2L,1L,7) , 
Edge(2L,4L,2) , 
Edge(3L,2L,4) , 
Edge(3L,6L,3) , 
Edge(4L,1L,1), 
Edge(5L,2L,2) , 
Edge(5L,3L,8) , 
Edge(5L,6L,3) 
) 
edgeArray ; Array [ org. apache. spark. graphx. Edge[ Int] ] = Array ( Edge (2,1,7) , Edge (2,4,2) , Edge 
(3,2,4) ,Edge(3,6,3) ,Edge(4,1,1) ,Edge(5,2,2) ,Edge(5,3,8) ,Edge(5,6,3) ) 


(4) 使 用 SparkContext 对 象 的 parallelize( ) 方 法 ， 把 关于 顶点 的 数组 vertexArray 转换 成 
一 个 RDD[ (Long, (String, Int) ) ] 类 型 的 RDD。 


scala > val vertexRDD : RDD| ( Long, (String, Int) ) | = sc. parallelize( vertexArray) 
vertexRDD : org. apache. spark. rdd. RDD[ ( Long, (String, Int) ) | = ParallelCollectionRDD [ 0] at paral- 


lelize at < console > :20 
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(5) 同样 使 用 SparkContext 对 象 的 parallelize( ) 方 法 ， 把 关于 边 的 数组 edgeArray 转换 成 
一 个 org. apache. spark. rdd. RDDL org. apache. spark. graphx. Edge| Int | |] 类 型 的 RDD。 


scala > val edgeRDD: RDD[ Edge| Int | | = sc. parallelize( edgeArray ) 
edgeRDD : org. apache. spark. rdd. RDD [| org. apache. spark. graphx. Edge| Int | ] = ParallelCollectionRDD 
[1] at parallelize at < console > :20 


(6) 下 面 我 们 就 可 以 使 用 Graph 类 的 apply ) 方 法 构建 一 个 图 ， 其 中 图 的 项 点 RDD 就 是 
vertexRDD， 边 RDD yŒ edgeRDD。 


scala > val graph: Graph| (String, Int) ,Int| = Graph( vertexRDD ,edgeRDD) 
graph: org. apache. spark. graphx. Graph[ (String, Int) , Int | = org. apache. spark. graphx. impl. GraphImpl 
@ 766398 


这 样 ， 经 过 以 上 6 个 步骤 ,我 们 就 构建 出 了 一 个 Graph 对 象 ， 在 下 面 几 个 小 市 中 ， 对 图 

的 数据 的 操作 都 是 依赖 于 这 里 我 们 构建 的 这 个 图 。 

2. 图 的 属性 操作 

(1) 找 出 图 中 年 龄 大 于 30 的 顶点 。 首 先 使 用 graph. vertices 找到 我 们 构建 的 图 中 的 顶点 
vertices ( VertexRDD) 。 然 后 使 用 filterl case( id, ( name,age) ) => age >301 过 滤 出 年 龄 大 于 30 
的 人 员 ， 因 为 顶点 是 用 “( 顶 点 的 ID 号 ，( 属 性 的 姓名 ， 属 性 的 年 龄 ) ”来 表示 的 ， 如 (1L， 
("Alice" ,28) ) ， 所 以 这 里 使 用 “case(id, (name,age) ) "来 进行 匹配 ”( 顶 点 的 ID c, (BHE 
的 姓名 ， 属 性 的 年 龄 ) ) ”。 接 着 使 用 RDD 的 collect( ) 方 法 将 过 小 的 结果 进行 收集 ， 最 后 使 
用 foreach 输出 收集 到 的 结果 。 最 后 我 们 可 以 看 到 年 龄 大 于 30 的 人 有 David, Fran, Charlie 
All Ed, 


scala > graph. vertices. filter| case( id, ( name,age) ) => age > 30]. collect. foreach | 
| case( id, ( name,age) ) => println( s" $name is$age" ) 
| d 
15/05/18 19:21:35 INFO spark. SparkContext : Starting job: collect at < console > :29 
15/05/18 19. 21: 35 INFO scheduler. DAGScheduler; Registering RDD 6 ( mapPartitions at 
VertexRDD. scala:452 ) 
15/05/18 19:21:35 INFO scheduler. TaskSchedulerImpl : Adding task set 1.0 with 1 tasks 
15/05/18 19:21:35 INFO scheduler. DAGScheduler: Submitting Stage 2 ( ParallelCollectionRDD [ 0 ] at 
parallelize at < console > :20) , which has no missing parents 
15/05/18 19:21:35 INFO storage. MemoryStore : ensureFreeSpace (1488) called with curMem = 2720, 
maxMem - 280248975 
15/05/18 19:21:36 INFO spark. SparkContext ; Job finished : collect at < console > :29 ,took 1. 414064754 s 
David is 42 
Fran is 50 
Charlie is 65 
Ed is 55 


(2) 对 于 从 图 的 顶点 中 找 出 年 龄 大 于 30 的 人 ， 我 们 除了 在 代码 中 使 用 Scala 语言 的 模 
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式 匹 配 外 ， 还 可 以 使 用 Scala 的 元 组 特性 进行 操作 ， 如 以 下 的 代码 所 示 ， 最 终 的 查找 结果 跟 
上 一 个 查找 结果 相同 。 


scala > graph. vertices. filter( v => v. _2. _2 >30). collect. foreach(v=>println(s"${v. 2. 1] is$j{v. _ 
ddr) e 
15/05/18 19:22:59 INFO spark. SparkContext; Starting job : collect at < console > :29 

15/05/18 19:22:59 INFO spark. MapOutputTrackerMaster; Size of output statuses for shuffle O is 

134 bytes 

15/05/18 19:22:59 INFO spark. MapOutputTrackerMaster; Size of output statuses for shuffle 1 is 

134 bytes 

15/05/18 19:22:59 INFO scheduler. DAGScheduler: Got job 1( collect at < console > :29) with 1 output 
partitions ( allowLocal = false) 

15/05/18 19:22:59 INFO scheduler. DAGScheduler; Final stage ; Stage 3( collect at < console > :29) 

15/05/18 19:22:59 INFO scheduler. DAGScheduler; Parents of final stage; List( Stage 5 , Stage 4) 

15/05/18 19:22:59 INFO scheduler. DAGScheduler ; Missing parents ; List ( ) 

15/05/18 19:22:59 INFO scheduler. DAGScheduler; Submitting Stage 3 ( VertexRDD| 17] at RDD at 


VertexRDD. scala ;58) , which has no missing parents 

15/05/18 19:22:59 INFO storage. MemoryStore : ensureFreeSpace (4064) called with curMem = 12424, 
maxMem = 280248975 

15/05/18 19:22:59 INFO storage. MemoryStore ; Block broadcast, 3 stored as values in memory( estimated 
size 4. 0 KB free 267. 3 MB) 

15/05/18 19:22:59 INFO scheduler. DAGScheduler; Submitting 1 missing tasks from Stage 3 ( Ver- 
texRDD| 17] at RDD at VertexRDD. scala;58) 

15/05/18 19:22:59 INFO scheduler. TaskSchedulerImpl : Adding task set 3.0 with 1 tasks 

15/05/18 19:22:59 INFO scheduler. TaskSetManager:; Starting task 0.0 in stage 3. O( TID 3, localhost, 
ANY ,1365 bytes) 

15/05/18 19:22:59 INFO executor. Executor; Running task 0. 0 in stage 3. O( TID 3) 

15/05/18 19:22:59 INFO storage. BlockManager; Found block rdd, 9. 0 locally 

15/05/18 19:22:59 INFO executor. Executor; Finished task 0.0 in stage 3. O( TID 3). 2029 bytes result 
sent to driver 

15/05/18 19:22:59 INFO scheduler. DAGScheduler: Stage 3 ( collect at < console > :29) finished in 
0. 067 s 

15/05/18 19:22:59 INFO spark. SparkContext :Job finished: collect at < console > :29 ‚took 0. 115964151 s 
David is 42 

Fran is 50 

Charlie is 65 

Ed is 55 


(3) 边 的 操作 : 找 出 图 中 属性 大 于 5 的 边 。 首 先 使 用 graph. edges 产生 一 个 边 RDD 
(EdgeRDD) ， 再 调用 EdgeRDD 的 filter( ) 方 法 来 过 滤 出 边 属性 大 于 5 的 边 ， 然 后 使 用 RDD 
的 collect( ) 方 法 收集 结果 为 一 个 单机 的 数组 ， 并 调用 数组 的 foreach( ) 把 结果 输出 在 spark — 
shell 控制 合 。 最 终 的 输出 结果 显示 只 有 顶点 2 到 顶点 1 的 边 和 顶点 5 到 顶点 3 的 边 值 大 
REST 


Spark 核心 源码 分 析 与 开发 实战 


scala > graph. edges. filter( e => e. attr > 5). collect. foreach( e => println(s"$ | e. srcld| to$ | e. dstldj 
att$ | e. attr} " ) ) 

15/05/18 19:24:12 INFO spark. SparkContext : Starting job : collect at < console > :29 

15/05/18 19:24:12 INFO scheduler. DAGScheduler: Got job 2( collect at < console > :29) with 1 output 
partitions ( allowLocal = false) 

15/05/18 19:24:12 INFO scheduler. DAGScheduler; Final stage : Stage 6( collect at < console > :29) 
15/05/18 19:24:12 INFO scheduler. DAGScheduler; Parents of final stage ; List( ) 

15/05/18 19:24:12 INFO scheduler. DAGScheduler; Missing parents ; List ( ) 

15/05/18 19:24:12 INFO scheduler. DAGScheduler; Submitting Stage 6( FilteredRDD[ 18 ] at filter at < 


console > :29) ,which has no missing parents 

15/05/18 19:24:12 INFO storage. MemoryStore ; ensureFreeSpace (2952) called with curMem = 16488, 
maxMem - 280248975 

15/05/18 19:24:12 INFO storage. MemoryStore : Block broadcast, 4 stored as values in memory ( estimated 
size 2. 9 KB, free 267. 2 MB) 

15/05/18 19:24:12 INFO scheduler. DAGScheduler; Submitting 1 missing tasks from Stage 6 ( Filtere- 
dRDD| 18 | at filter at < console > :29) 

15/05/18 19:24:12 INFO scheduler. TaskSchedulerImpl : Adding task set 6.0 with 1 tasks 

15/05/18 19:24:12 INFO scheduler. TaskSetManager: Starting task 0.0 in stage 6. O( TID 4, localhost, 
ANY ,1529 bytes) 

15/05/18 19:24:12 INFO executor. Executor; Running task 0. 0 in stage 6. O( TID 4) 

15/05/18 19:24:12 INFO storage. BlockManager; Found block rdd, 2 0 locally 

15/05/18 19:24:13 INFO scheduler. TaskSetManager: Finished task 0.0 in stage 6. O( TID 4) in 19 ms 
on localhost( 1/1 ) 

15/05/18 19:24:13 INFO scheduler. TaskSchedulerlmpl : Removed TaskSet 6. 0, whose tasks have all 
completed , from pool 

15/05/18 19:24:13 INFO scheduler. DAGScheduler; Stage 6 ( collect at < console > : 29) finished in 
0. 020 s 

15/05/18 19: 24: 13 INFO spark. SparkContext; Job finished: collect at < console >: 29, took 
0. 033620651 s 

2 to l att 7 

5 to 3 att 8 


(4) triplets ( 边 三 元 组 ) 操作 : 列 出 所 有 的 tripltes， 其 中 每 个 边 三 元 组 包括 源 项 点 ID 
和 属性 ， 目 的 顶点 ID 和 属性 以 及 边 的 属性 。 格 式 如 : ( (srcld, srcAttr) , ( dstld, dstAttr) , at- 
tr) 。 首 先 调用 graph. triplets 产生 一 个 RDD [ EdgeTriplet [ VD, ED]] 类 型 的 RDD， 然 后 调 
用 这 个 RDD 的 collect( ) 方 法 生成 一 个 单机 的 数组 ， 最 后 使 用 for 循环 遍历 这 个 数组 中 的 值 并 
使 用 println( ) 方 法 以 “triplet. srcAttr. _1} likes $j triplet. dstAttr. _1” 的 格式 把 结果 打印 到 控 
制 台 。 

scala > for( triplet <— graph. triplets. collect) | 
| println ( s" $ | triplet. srcAttr. 1]. likes$ | triplet. dstAttr.. 1] " ) 


| 3 
15/05/18 19:27:15 INFO spark. SparkContext : Starting job: collect at < console > :29 
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15/05/18 19:27:15 INFO scheduler. DAGScheduler: Registering RDD 0( parallelize at < console > :22) 
15/05/18 19:27:16 INFO scheduler. DAGScheduler: Got job O( collect at < console > :29) with 1 output 
partitions( allowLocal = false ) 

15/05/18 19:27:16 INFO scheduler. DAGScheduler; Final stage : Stage O( collect at < console > :29) > 
15/05/18 19:27:17 INFO storage. BlockFetcherlterator$ BasicBlockFetcherlterator: Getting 1 non ~ empty 
blocks out of 1 blocks 

15/05/18 19:27:17 INFO storage. BlockFetcherlterator$ BasicBlockFetcherlterator; Started O remote fet- 
ches in 0 ms 

15/05/18 19:27:17 INFO executor. Executor; Finished task 0.0 in stage 0.0(TID 3). 2615 bytes result 
sent to driver 

15/05/18 19:27:17 INFO scheduler. DAGScheduler: Stage 0 ( collect at < console > :29) finished in 
0. 038 s 

15/05/18 19:27:17 INFO spark. SparkContext ; Job finished ; collect at < console > :29 , took 

1. 306575574 s 

Bob likes Alice 

Bob likes David 

Charhe likes Bob 

Charlie likes Fran 

David likes Alice 

Ed likes Bob 

Ed likes Charlie 

Ed likes Fran 


(5) 同样 是 对 triplets 〈 边 三 元 组 ) 操作 : 列 出 边 属 性 >5 的 tripltes。 这 里 的 操作 跟 上 一 
个 对 边 三 元 组 的 操作 类 似 ， 唯 一 不 同 的 是 在 调用 graph. triplets 后 会 完 对 RDD | EdgeTriplet 
[VD,ED]]j 中 的 数据 进行 过 滤 ， 只 保留 边 属性 大 于 5 的 边 三 元 组 ， 最 后 还 是 输出 结果 到 控制 
全 上 。 我 们 可 以 看 到 过 渡 后 满足 条 件 的 边 三 元 组 只 剩 下 两 个 。 


scala > for( triplet «— graph. triplets. filter(t 2» t. attr » 5). collect) | 


| printIn ( s" $ | triplet. srcAttr.. 1] likes$ | triplet. dstAttr.. 1j") 

| | 
15/05/18 19:27:43 INFO spark. SparkContext : Starting job; collect at < console > :29 
15/05/18 19; 27:43 INFO spark. MapOutputTrackerMaster; Size of output statuses for shuffle 2 is 
134 bytes 
15/05/18 19; 27:43 INFO spark. MapOutputTrackerMaster; Size of output statuses for shuffle 1 is 
134 bytes 
15/05/18 19:27:43 INFO storage. MemoryStore : ensureFreeSpace (3920 ) called with curMem = 15584, 
maxMem = 280248975 
15/05/18 19:27:43 INFO storage. MemoryStore ; Block broadcast_4 stored as values in memory( estimated 
size 3. 8 KB, free 267. 2 MB) 
15/05/18 19:27:43 INFO scheduler. DAGScheduler; Submitting 1 missing tasks from Stage 4 ( Filtere- 
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dRDD| 19 | at filter at < console > :29) 

15/05/18 19:27:43 INFO scheduler. TaskSchedulerImpl : Adding task set 4. O with 1 tasks 

15/05/18 19:27:43 INFO scheduler. TaskSetManager: Starting task 0.0 in stage 4. O( TID 4, localhost, 
ANY ,1976 bytes) 

15/05/18 19:27:43 INFO executor. Executor; Running task 0. 0 in stage 4. O( TID 4) 

15/05/18 19:27:43 INFO storage. BlockManager: Found block rdd, 2 0 locally 

15/05/18 19:27:43 INFO storage. BlockFetcherlterator $ BasicBlockFetcherlterator ; maxBytesInFlight : 
50331648 , targetRequestSize ; 10066329 

15/05/18 19:27:43 INFO storage. BlockFetcherlterator$ BasicBlockFetcherlterator ; Getting 1 non — empty 
blocks out of 1 blocks 

15/05/18 19:27:43 INFO storage. BlockFetcherlterator$ BasicBlockFetcherlterator; Started 0 remote fet- 
ches in 1 ms 

15/05/18 19:27:43 INFO scheduler. TaskSetManager: Finished task 0.0 in stage 4. O( TID 4) in 20 ms 
on localhost ( 1/1 ) 

15/05/18 19:27:43 INFO scheduler. TaskSchedulerlmpl : Removed TaskSet 4.0, whose tasks have all 
completed , from pool 

15/05/18 19:27:43 INFO scheduler. DAGScheduler: Stage 4 ( collect at < console > : 29) finished in 
0.014 s 

15/05/18 19:27:43 INFO spark. SparkContext ; Job finished : collect at < console > :29 ,took 0. 037875226 s 
Bob likes Alice 

Ed likes Charlie 


(6) Degrees 操作 : 找 出 图 中 最 大 的 出 度 、 和 度 、 度 数 。 首 先 要 预定 义 一 个 max( ) PK 
数 ， 它 负责 从 任意 两 个 值 中 选 出 值 大 的 那 一 个 。 接 下 来 通过 调用 graph. outDegrees. reduce 
(max) 得 出 出 度 最 大 的 顶点 ID 和 它 的 出 度数 ， 调 用 graph. inDegrees. reduce( max ) 得 出 人 度 最 
大 的 顶点 ID 和 它 的 入 度数 ， 调 用 graph. degrees. reduce (max) 得 出 度数 〈 包 括 出 和 人 度 ) 最 大 
的 顶点 ID 和 它 的 度数 。 从 输入 结果 中 我 们 看 到 出 度 最 大 的 是 顶点 ID 为 5 出 度 为 3 的 顶点 ， 
入 度 最 大 的 是 顶点 卫 为 2 出 度 为 2 的 顶点 ， 出 人 度 最 大 的 是 顶点 卫 为 2 出 入 度 为 4 的 
顶点 。 


scala > def max( a; ( VertexId , Int) ,b: ( VertexId , Int) ) : ( VertexId , Int) = | 

| if(a. 2»b. 2) a else b 

NE 
max: (a: ( org. apache. spark. graphx. VertexId, Int), b: ( org. apache. spark. graphx. VertexId, Int ) ) 
(org. apache. spark. graphx. Vertexld , Int) 


" 


scala > println ( " max of outDegrees:" + graph. outDegrees. reduce (max) +" max of inDegrees;" + 


" + graph. degrees. reduce (max) ) 

15/05/18 19:28:24 INFO spark. SparkContext : Starting job:reduce at < console > :31 

15/05/18 19; 28; 24 INFO scheduler. DAGScheduler; Registering RDD 20 ( mapPartitions at 
GraphImpl. scala ;192) 

15/05/18 19:28:24 INFO scheduler. DAGScheduler: Got job 2 (reduce at < console > :31) with 1 output 


partitions( allowLocal = false ) 


graph. inDegrees. reduce( max) +" max of Degrees: 
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15/05/18 19:28:24 INFO scheduler. DAGScheduler: Final stage : Stage 8( reduce at < console > :31) 
15/05/18 19:28:24 INFO scheduler. DAGScheduler; Parents of final stage: List( Stage 12 , Stage 9 , Stage 
10) 

15/05/18 19:28:24 INFO scheduler. DAGScheduler: Missing parents; List( Stage 12 ) S 
15/05/18 19:28:24 INFO scheduler. DAGScheduler: Submitting Stage 12 ( GraphImpl. mapReduceTriplets 
— preAge MapPartitionsRDD| 20] at mapPartitions at GraphImpl. scala;192) , which has no missing par- 
ents 

15/05/18 19:28:24 INFO storage. MemoryStore : ensureFreeSpace (4296) called with curMem = 19504, 
maxMem - 280248975 

15/05/18 19:28:24 INFO storage. MemoryStore ; Block broadcast, 5 stored as values in memory( estimated 
size 4. 2 KB ,free 267. 2 MB) 

15/05/18 19:28:24 INFO scheduler. DAGScheduler ; Submitting 1 missing tasks from Stage 12 ( GraphIm- 
pl. mapReduceTriplets - preAgg MapPartitionsRDD| 20 | at mapPartitions at GraphImpl. scala:192 ) 
15/05/18 19:28:24 INFO scheduler. TaskSetManager: Finished task 0.0 in stage 18. O( TID 10) in 10 
ms on localhost( 1/1 ) 

15/05/18 19:28:24 INFO scheduler. TaskSchedulerImpl: Removed TaskSet 18. 0, whose tasks have all 
completed , from pool 

15/05/18 19:28:24 INFO scheduler. DAGScheduler; Stage 18 (reduce at < console > :31) finished in 
0. 006 s 

15/05/18 19; 28; 24 INFO spark. SparkContext: Job finished; reduce at < console >; 31, took 
0. 062159757 s 

max of outDegrees: (5,3) max of inDegrees: (2,2) max of Degrees:(2,4) 


3. 转换 操作 (Property Operations) 

(1) 顶点 的 转换 操作 :每 一 个 顶点 属性 中 的 age 进行 age + 10。 直 接 调用 graph. map- 
Vertices( ) 方 法 并 结合 Scala 的 模式 匹配 对 图 中 顶点 的 age 属性 进行 转换 操作 ， 然 后 把 转换 操 
作 后 产生 的 新 图 中 的 顶点 数据 进行 收集 并 输出 到 spark - shell 控制 台 上 。 从 输出 结果 中 可 以 
看 出 原来 David 的 年 龄 是 42 岁 ， 而 转化 后 David 的 年 龄 由 于 增加 了 10 岁 变 成 了 52 岁 ， 其 他 
的 人 的 年 龄 同 理 都 增加 了 10 岁 。 


scala > graph. mapVertices| case(id, (name,age) ) => (id, (name,age +10) ) |. 

vertices. collect. foreach( v => println(s"$1v. 2. 1j is$|v. 2. 2]")) 

15/05/18 19:31:25 INFO spark. SparkContext : Starting job: collect at < console > :29 

15/05/18 19:31:25 INFO spark. MapOutputTrackerMaster; Size of output statuses for shuffle 1 is 
134 bytes 

15/05/18 19:31:25 INFO spark. MapOutputTrackerMaster; Size of output statuses for shuffle 2 is 
134 bytes 

15/05/18 19:31:25 INFO scheduler. DAGScheduler: Got job 5( collect at < console > :29) with 1 output 
partitions( allowLocal = false ) 

15/05/18 19:31:25 INFO scheduler. DAGScheduler; Final stage : Stage 23( collect at < console > :29) 
15/05/18 19:31:25 INFO scheduler. DAGScheduler; Parents of final stage ; List( Stage 24 , Stage 25 ) 
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15/05/18 19:31:25 INFO scheduler. DAGScheduler: Submitting 1 missing tasks from Stage 23 ( Ver- 
texRDD| 33] at RDD at VertexRDD. scala;58) 

15/05/18 19:31:25 INFO scheduler. TaskSchedulerImpl: Adding task set 23.0 with 1 tasks 

15/05/18 19:31:25 INFO scheduler. TaskSetManager ; Starting task 0. 0 in stage 23. O( TID 11 , localhost, 
ANY , 1365 bytes) 

15/05/18 19:31:25 INFO executor. Executor; Running task 0.0 in stage 23. O( TID 11) 

15/05/18 19:31:25 INFO storage. BlockManager: Found block rdd, 9 0 locally 

15/05/18 19:31:25 INFO scheduler. TaskSetManager: Finished task 0.0 in stage 23. O( TID 11) in 11 
ms on localhost( 1/1) 

15/05/18 19:31:25 INFO scheduler. TaskSchedulerlmpl : Removed TaskSet 23. 0, whose tasks have all 
completed , from pool 

15/05/18 19:31:25 INFO scheduler. DAGScheduler; Stage 23 ( collect at < console > :29) finished in 
0.013 s 

15/05/18 19:31:25 INFO spark. SparkContext ; Job finished : collect at < console > :29 ,took 0. 020798055 s 
David is 52 

Aliceis 38 

Fran is 60 

Charlie is 75 

Ed is 65 

Bob is 37 


(2) 边 的 转换 操作 : 边 的 属性 x2。 调 用 graph. mapEdges( ) 把 每 条 边 的 属性 值 都 乘 以 2， 
然后 调用 collect( ) 方 法 收集 每 条 边 的 数据 并 以 “$1e. sreld} to$ |e. dstld] att$|e. atr; ”的 格 
式 输 出 到 控制 台 。 从 输出 结果 中 可 以 看 出 原来 项 点 2 到 顶点 1 的 属性 值 是 7， 而 转化 后 由 于 
乘 以 2 变 成 了 14， 其 他 的 边 同 理 都 变 成 了 原来 的 2 fiis 


scala > graph. mapEdges ( e => e. attr * 2). edges. collect. foreach ( e => println ( s" $ { e. srcld| to$ | e- 
. dstId} att$ | e. attr} " ) ) 

15/05/18 19:32:11 INFO spark. SparkContext : Starting job : collect at EdgeRDD. scala :61 

15/05/18 19: 32: 11 INFO spark. MapOutputTrackerMaster; Size of output statuses for shuffle O is 
134 bytes 

15/05/18 19:32:11 INFO scheduler. DAGScheduler; Got job 6( collect at EdgeRDD. scala:61) with 1 
output partitions( allowLocal = false ) 

15/05/18 19:32:11 INFO scheduler. DAGScheduler; Final stage: Stage 26 (collect at EdgeRDD. scala; 
61) 

15/05/18 19:32:11 INFO scheduler. DAGScheduler; Parents of final stage: List( Stage 29) 

15/05/18 19:32:11 INFO scheduler. DAGScheduler ; Missing parents ; List( ) 

15/05/18 19:32:11 INFO scheduler. DAGScheduler ; Submitting Stage 26 ( MappedRDD[| 38] at map at 
EdgeRDD. scala:61) , which has no missing parents 

15/05/18 19:32:11 INFO storage. MemoryStore ; ensureFreeSpace(4312) called with 

curMem - 69224 , maxMem - 280248975 

15/05/18 19:32:11 INFO storage. MemoryStore; Block broadcast, 12 stored as values in memory ( esti- 
mated size 4. 2 KB, free 267. 2 MB) 
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15/05/18 19:32:11 INFO storage. BlockFetcherlterator$ BasicBlockFetcherlterator: Getting 1 non — empty 
blocks out of 1 blocks 
15/05/18 19:32:11 INFO storage. BlockFetcherlIterator$ BasicBlockFetcherlterator; Started 0 remote fet- 


ches in 0 ms 

15/05/18 19:32:11 INFO scheduler. TaskSetManager: Finished task 0.0 in stage 26. O( TID 12) in 17 © 
ms on localhost( 1/1) 

15/05/18 19:32:11 INFO scheduler. TaskSchedulerImpl : Removed TaskSet 26. 0, whose tasks have all 
completed , from pool 

15/05/18 19:32:11 INFO scheduler. DAGScheduler ; Stage 26 (collect at EdgeRDD. scala:61) finished 
in 0. 002 s 

15/05/18 19:32:11 INFO spark. SparkContext: Job finished; collect at EdgeRDD. scala; 61, took 
0. 023631988 s 

2 to 1 att 14 

2 to 4 att 4 

3 to 2 att 8 

3 to 6 att 6 

4 to | att 2 

5 to 2 att 4 

5 to 3 att 16 

5 to 6 att 6 


4. 结构 操作 (Structural Operations) 

(1) 在 这 里 的 结构 操作 中 ， 我 们 只 演示 根据 条 件 产生 一 个 图 的 子 图 的 操作 。 首 先 我 们 
调用 graph. subgraph( ) 并 在 subgraph ( ) 方 法 内 部 提供 了 一 个 函数 来 判断 顶点 的 属性 age > 30, 
然后 根据 过 滤 后 的 结果 产 出 一 个 新 的 子 图 subGraph。 


scala > val subGraph = graph. subgraph( vpred = (id,vd) => vd. 2 >=30) 
subGraph : org. apache. spark. graphx. Graph| (String, Int) , Int | = org. apache. spark. graphx. impl. 
GraphImpl€ el fdbd 


(2) 调用 产 出 的 子 图 subGraph. vertices. collect ) 方 法 收集 这 个 新 图 的 顶点 数据 ， 然 后 调 
用 数组 的 foreach( ) 方 法 把 结 采 输出 到 spark - shell 控制 台 。 从 输出 结 末 中 可 以 看 到 顶点 的 数 
量 原 来 的 6 个 减少 到 4 个 。 


scala > subGraph. vertices. collect. foreach( v => println(s"$|v. 2. 1] is$]v. _2._2}")) 

15/05/18 19:33:20 INFO spark. SparkContext : Starting job : collect at < console > :31 

15/05/18 19:33:20 INFO scheduler. DAGScheduler: Got job 7( collect at < console > :31) with 1 output 
partitions( allowLocal = false ) 

15/05/18 19:33:20 INFO scheduler. DAGScheduler; Final stage : Stage 30( collect at < console > :31) 
15/05/18 19:33:20 INFO scheduler. DAGScheduler; Parents of final stage ; List( Stage 31 , Stage 32) 
15/05/18 19:33:20 INFO scheduler. DAGScheduler: Missing parents ; List( ) 

15/05/18 19:33:20 INFO scheduler. DAGScheduler; Submitting Stage 30 ( VertexRDD| 40] at RDD at 
VertexRDD. scala;58) , which has no missing parents 

15/05/18 19:33:20 INFO storage. MemoryStore ; ensureFreeSpace (4536) called with curMem = 73536, 
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maxMem = 280248975 

15/05/18 19:33:20 INFO storage. MemoryStore : Block broadcast_13 stored as values in memory ( esti- 
mated size 4. 4 KB, free 267. 2 MB) 

15/05/18 19:33:20 INFO executor. Executor; Running task 0. 0 in stage 30. O( TID 13) 

15/05/18 19:33:20 INFO storage. BlockManager: Found block rdd, 9 0 locally 

15/05/18 19:33:20 INFO scheduler. TaskSetManager: Finished task 0. 0 in stage 30. O( TID 13) in 4 ms 
on localhost ( 1/1 ) 

15/05/18 19:33:20 INFO scheduler. TaskSchedulerImpl : Removed TaskSet 30.0, whose tasks have all 
completed , from pool 

15/05/18 19:33:20 INFO scheduler. DAGScheduler; Stage 30 ( collect at < console > :31) finished in 
0. 004 s 

15/05/18 19:33:20 INFO spark. SparkContext ; Job finished : collect at < console > :31 ,took 0. 014150411 s 
David is 42 

Fran is 50 

Charlie is 65 

Ed is 55 


(3) 同样 我 们 可 以 求 出 子 图 subGraph 所 有 边 , subGraph. edges. collect. foreach ( e = > 
println(s"$ | e. srcld| to$ 1e. dstId att$ |e. attrl" ) ) 这 行 代 码 会 先 得 出 子 图 subGraph 的 边 
RDD， 然 后 调用 边 RDD 的 collect 收集 数据 ， 最 终 使 用 foreach( ) 方 法 以 “ $1 e. srcld| to$|e- 
. dstld} att$ | e. attr} ”的 格式 把 结果 输出 到 spark - shell 控制 合 上 。 从 输出 结果 中 我 们 发 现 边 
的 数量 同样 减少 了 ， 由 原来 的 8 条 边 减 为 3 条 边 。 

scala > subGraph. edges. collect. foreach( e => printIn(s"${e. srcId] to$ |e. dstId att$|e. attr} " ) ) 


15/05/18 19:33:43 INFO spark. SparkContext : Starting job: collect at EdgeRDD. scala:61 
15/05/18 19:33:43 INFO scheduler. DAGScheduler:; Got job 8( collect at EdgeRDD. scala;61) with 1 


output partitions ( allowLocal - false) 

15/05/18 19:33:43 INFO scheduler. DAGScheduler; Final stage : Stage 33( collect at EdgeRDD. scala :61 ) 
15/05/18 19:33:43 INFO scheduler. DAGScheduler; Parents of final stage ; List( Stage 36) 

15/05/18 19:33:43 INFO scheduler. DAGScheduler; Missing parents ; List( ) 

15/05/18 19:33:43 INFO scheduler. DAGScheduler; Submitting Stage 33 ( MappedRDD[ 43 | at map at 
EdgeRDD. scala:61) , which has no missing parents 

15/05/18 19:33:43 INFO storage. MemoryStore : ensureFreeSpace (4312) called with curMem = 78072, 
maxMem = 280248975 

15/05/18 19:33:43 INFO storage. MemoryStore; Block broadcast, 14 stored as values in memory ( esti- 
mated size 4. 2 KB ,free 267. 2 MB) 

15/05/18 19:33:43 INFO scheduler. DAGScheduler; Submitting 1 missing tasks from Stage 33 ( Mappe- 
dRDD[43 | at map at EdgeRDD. scala:61 ) 

15/05/18 19:33:43 INFO scheduler. TaskSchedulerImpl: Adding task set 33.0 with 1 tasks 

15/05/18 19:33:43 INFO scheduler. TaskSetManager ; Starting task 0. 0 in stage 33. O( TID 14, localhost, 
ANY ,1976 bytes) 

15/05/18 19:33:43 INFO executor. Executor; Running task 0. 0 in stage 33. O( TID 14) 
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15/05/18 19:33:43 INFO storage. BlockManager: Found block rdd, 2 0 locally 

15/05/18 19:33:43 INFO storage. BlockFetcherlterator $ BasicBlockFetcherlterator ; maxBytesInFlight : 
50331648 , targetRequestSize ; 10066329 

15/05/18 19:33:43 INFO storage. BlockFetcherlterator$ BasicBlockFetcherlterator ; Getting 1 non — empty 

blocks out of 1 blocks e 
15/05/18 19:33:43 INFO storage. BlockFetcherlterator$ BasicBlockFetcherlterator; Started O remote fet- 


ches in 0 ms 


15/05/18 19:33:43 INFO executor. Executor ; Finished task 0. 0 in stage 33. O( TID 14). 2140 bytes re- 
sult sent to driver 

15/05/18 19:33:43 INFO scheduler. DAGScheduler; Stage 33 ( collect at EdgeRDD. scala;61) finished 
in 0. 000 s 

15/05/18 19; 33: 43 INFO spark. SparkContext: Job finished: collect at EdgeRDD. scala: 61, took 
0. 01430434 s 

3 to 6 att 3 

5 to 3 att 8 

5 to 6 att 3 


连接 操作 (Join Operations) 
(1) 首先 定义 一 个 case class User， 用 来 作为 后 面 生成 的 新 图 的 顶点 属性 类 


scala > case class User( name : String, age; Int, inDeg : Int, outDeg : Int ) 


defined class User 


(2) 创建 一 个 新 图 initialUserGraph, ， 顶 点 VD 的 数据 类 型 为 User， 并 通过 graph 的 map- 
Vertices( ) 方 法 做 类 型 的 转换 操作 。 


scala > val initialUserGraph : Graph [ User, Int] = graph. mapVertices | case (id, (name, age) ) = > User 
(name age ,0 ,0) | 

initialUserGraph : org. apache. spark. graphx. Graph[ User, Int] = org. apache. spark. graphx. Impl. Graph 
Impl@ f5fcc8 


(3) initialUserGraph 与 分 别 它 的 inDegrees ( AJE), outDegrees ( HH E) 进行 outerJoin- 
Vertices 操作 〈 连 接 操作 ) ， 并 修改 initialUserGraph 中 顶点 属性 的 inDeg fH, outDeg 值 ， 最 后 
会 生成 一 个 连接 操作 后 的 新 图 userGraph。 


scala > val userGraph = initialUserGraph. outerJoinVertices( initialUserGraph. inDegrees) | 

case( id,u, inDegOpt) => User( u. name ,u. age, inDegOpt. getOrElse(0) ,u. outDeg) 
|. outerJoinVertices( initialUserGraph. outDegrees) | 

case( id,u, outDegOpt) => User( u. name ,u. age ,u. inDeg , outDegOpt. getOrElse( 0) ) 
| 


userGraph : org. apache. spark. graphx. Graph| User, Int | = org. apache. spark. graphx. impl. GraphImpl 
@ 107166f 


(4) 通过 userGraph. vertices. collect. foreach( v => println(s"$|v. 2. name] inDeg: ${ v. _ 


2. inDeg] 
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这 行 代码 我 们 可 以 在 spark - shell tl A A“ $ |v. 2. name} inDeg: $ |v. _2. inDeg| 


outDeg: $ | v. 2. outDeg} ”的 格式 输出 新 生成 的 连接 图 的 顶点 属性 。 


(5) 


scala > userGraph. vertices. collect. foreach ( v => println( s" $ | v. _2. name} inDeg: $ | v. _2. inDeg] 
outDeg: $| v. 2. outDeg| " ) ) 

15/05/18 19:41:50 INFO spark. SparkContext : Starting job; collect at < console > :35 

15/05/18 19; 41; 50 INFO scheduler. DAGScheduler; Registering RDD 60 ( mapPartitions at 
GraphImpl. scala; 192 ) 

15/05/18 19; 41; 50 INFO scheduler. DAGScheduler; Registering RDD 48 ( mapPartitions at 
GraphImpl. scala; 192 ) 

15/05/18 19:41:50 INFO scheduler. DAGScheduler: Got job 9( collect at < console > :35) with 1 output 
partitions ( allowLocal = false) 

15/05/18 19:41:50 INFO scheduler. DAGScheduler; Final stage : Stage 37( collect at < console > :35) 
15/05/18 19:41:50 INFO scheduler. DAGScheduler ; Parents of final stage: List( Stage 38 , Stage 42 , Stage 
39 ,Stage 41) 

15/05/18 19:41:50 INFO scheduler. DAGScheduler; Missing parents ; List( Stage 42 ,Stage 41) 
15/05/18 19:41:50 INFO scheduler. DAGScheduler; Submitting Stage 41 

15/05/18 19:41:50 INFO storage. MemoryStore ; ensureFreeSpace (1800) called with curMem = 27064 , 
maxMem - 280248975 

15/05/18 19:41:50 INFO storage. MemoryStore ; Block rdd, 64. 0 stored as values in memory ( estimated 
size 1800. 0 B, free 267. 2 MB) 

15/05/18 19:41:50 INFO storage. BlockManagerlnfo : Added rdd, 64. 0 in memory on SparkMaster 49562 
(size: 1800. 0 B,free:267. 3 MB) 

15/05/18 19:41:50 INFO storage. BlockManagerMaster : Updated info of block rdd. 64 0 

15/05/18 19:41:50 INFO scheduler. TaskSetManager: Finished task 0.0 in stage 37. O( TID 17) in 33 
ms on localhost( 1/1 ) 

15/05/18 19:41:50 INFO scheduler. TaskSchedulerImpl: Removed TaskSet 37. 0, whose tasks have all 
completed , from pool 

15/05/18 19:41:50 INFO scheduler. DAGScheduler: Stage 37 ( collect at < console > :35) finished in 
0. 024 s 

15/05/18 19:41:50 INFO spark. SparkContext : Job finished collect at < console > :35 ,took 0. 089561084 s 
David inDeg:1  outDeg:1 

Alice inDeg:2 outDeg:0 

Fran nDeg:2 outDeg:0 

Charlie inDeg:1 outDeg:2 

Ed inDeg:0  outDeg:3 

Bob inDeg:2  outDeg:2 


对 于 新 生成 的 连通 图 userGraph, jal HH VertexRDD 的 filter ( ) FIA, IUE i A JE 


(u. inDeg) 和 出 度 〈u outDeg) 相同 的 顶点 ， 然 后 把 满足 条 件 的 顶点 属性 name 输出 到 spark — 
shell 控制 台 。 从 输出 结果 中 看 到 满足 条 件 的 name 只 有 David 和 Bob, 
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scala > userGraph. vertices. filter | 

case(id,u) =>u. inDeg == u. outDeg 
|. collect. foreach | 

case( id, property) => println( property. name ) > 
| 
15/05/18 19:43:07 INFO spark. SparkContext: Starting job: collect at < console > :37 
15/05/18 19: 43: 07 INFO spark. MapOutputTrackerMaster; Size of output statuses for shuffle 2 is 
134 bytes 
15/05/18 19: 43:07 INFO spark. MapOutputTrackerMaster; Size of output statuses for shuffle 1 is 
134 bytes 
15/05/18 19: 43:07 INFO spark. MapOutputTrackerMaster; Size of output statuses for shuffle O is 
134 bytes 
15/05/18 19: 43: 07 INFO spark. MapOutputTrackerMaster; Size of output statuses for shuffle 6 is 
134 bytes 
15/05/18 19: 43:07 INFO spark. MapOutputTrackerMaster; Size of output statuses for shuffle 7 is 
134 bytes 
15/05/18 19:43:07 INFO scheduler. DAGScheduler: Got job 10( collect at < console > :37) with 1 out- 


put partitions( allowLocal = false ) 

15/05/18 19:43:07 INFO scheduler. DAGScheduler; Final stage ;Stage 43 ( collect at < console > :37) 
15/05/18 19:43:07 INFO scheduler. DAGScheduler; Parents of final stage; List( Stage 48 , Stage 45 ,Stage 
47 , Stage 44) 

15/05/18 19:43:07 INFO scheduler. TaskSetManager ; Starting task 0. 0 in stage 43. 0( TID 18 , localhost, 
ANY ,1511 bytes) 

15/05/18 19:43:07 INFO executor. Executor; Running task 0.0 in stage 43. O( TID 18) 

15/05/18 19:43:07 INFO storage. BlockManager: Found block rdd, 64. 0 locally 

15/05/18 19:43:07 INFO scheduler. TaskSetManager: Finished task 0. 0 in stage 43. O( TID 18) in 9 ms 
on localhost( 1/1 ) 

15/05/18 19:43:07 INFO scheduler. TaskSchedulerlmpl ; Removed TaskSet 43.0, whose tasks have all 
completed , from pool 

15/05/18 19:43:07 INFO scheduler. DAGScheduler; Stage 43 ( collect at < console > :37) finished in 
0.010 s 

15/05/18 19:43:07 INFO spark. SparkContext ; Job finished :collect at < console > :37 ,took 0. 021893023 s 
David 

Bob 


6. 聚合 操作 (MapReduceTriplets, Collecting Neighbors ) 

(1) 找 出 年 纪 最 大 的 追求 者 。 在 做 聚合 操作 时 ， 我 们 会 用 到 前 面 坐 连接 操作 时 生成 的 
一 个 连接 图 userCraph。 首 先 我 们 会 调用 userGraph. mapReduceTriplets( ) 方法 来 生成 一 个 Ver- 
texRDD 对 象 ， 在 mapReduceTriplets( ) 方 法 有 两 个 图 数 ， 一 个 负责 将 将 源 顶 点 的 属性 发 送 给 
目的 顶点 ， 一 个 是 在 目的 顶点 对 收 到 的 属性 消息 进行 判断 ， 最 后 得 到 的 是 edge. srcAttr age 


Spark 核心 源码 分 析 与 开发 实战 


值 最 大 的 项 点 属性 。 当 然 mapReduceTriplets( ) 方 法 返回 的 VertexRDD 中 包含 的 是 一 组 顶点 ， 
其 中 每 个 顶点 包括 顶点 ID 和 顶点 属性 (edge. srcAttr. name, edge. srcAttr. age) 。 


scala > val oldestFollower: VertexRDD[ (String, Int) | = userGraph. mapReduceTriplets[ (String, Int) | ( 

| // 将 源 顶 点 的 属性 发 送 给 目的 顶点 ,map 过 程 

| edge => Iterator( (edge. dstId , ( edge. srcAttr. name , edge. srcAttr. age) ) ) , 

| // 得 到 最 大 追求 者 ,reduce 过 程 

| (a,b) 2»if(a. 2»b. 2) a else b 

L| 3 
oldestFollower:org. apache. spark. graphx. VertexRDD| (String, Int) | = VertexRDD[ 81] at RDD at Ver- 
texRDD. scala :58 


(2) 使 用 userGraph. vertices 生成 一 个 VertexRDD 对 象 ， 然 后 使 用 这 个 对 象 和 oldestFol- 
lower 做 左 连接 操作 。 在 做 左 连接 操作 的 过 程 中 ， 会 结合 Scala 语言 的 模式 匹配 对 optOldest- 
Follower 进行 匹配 ， 如 果 它 满足 case Some( (name,age) ) ， 表 明 连 接 后 的 两 个 VertexRDD 中 
存在 oldestFollower( VertexRDD ) 中 的 顶点 属性 值 ， 这 时 就 会 选择 格式 为 s"$|name is the ol- 
dest follower of$ | user. name}. " RHET ABI EEE SEI DL 隆 值 ， 否 则 顶点 属性 值 为 
s"$ | user. name} does not have any followers. " 。 最 后 还 是 把 新 生成 的 顶点 属性 值 打 印 到 
spark - shell 控制 台 上 。 从 输出 结果 中 我 们 看 到 “Bob is the oldest follower of David" 这样 的 语 
句 ， 它 指 的 就 是 Bob 所 在 的 顶点 有 指向 David 所 在 的 顶点 的 边 ， 且 边 的 属性 值 是 所 有 指 加 
David 所 在 的 项 点 中 最 大 的 。 


scala > userGraph. vertices. leftJoin( oldestFollower) | (id,user, optOldestFollower) => 


optOldestFollower match | 


case None 2» s"$ | user. name} does not have any followers. " 


case Some( ( name,age) ) => s"$ {name} is the oldest follower of$ | user. name}. " 


| 
|. collect. foreach | case(id,str) => println( str) | 
15/05/18 19:44:30 INFO spark. SparkContext : Starting job: collect at < console > :42 
15/05/18 19; 44; 30 INFO scheduler. DAGScheduler; Registering RDD 56 ( mapPartitions at 
VertexRDD. scala :347 ) 


15/05/18 19:44:30 INFO scheduler. TaskSetManager: Finished task 0. 0 in stage 49. O( TID 23) in 7 ms 
on localhost(1/1) 

15/05/18 19:44:30 INFO scheduler. TaskSchedulerImpl; Removed TaskSet 49. 0, whose tasks have all 
completed , from pool 

15/05/18 19:44:30 INFO scheduler. DAGScheduler; Stage 49 ( collect at < console > ;42) finished in 
0.008 s 

15/05/18 19:44:30 INFO spark. SparkContext : Job finished ;collect at < console > :42 ,took 0. 131287322 s 
Bob is the oldest follower of David. 

David is the oldest follower of Alice. 
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Charlie is the oldest follower of Fran. 
Ed is the oldest follower of Charlie. 
Ed does not have any followers. 


Charlie is the oldest follower of Bob. 


(3) 找 出 追求 者 的 平均 年 纪 。 首 先 也 是 通过 调用 userGraph. mapReduceTriplets ( ) 77 1: ^E 
成 一 个 VertexRDD 对 象 ， 其 中 VertexRDD 对 象 是 由 一 组 顶点 组 成 ， 每 个 顶点 还 是 包括 顶点 
ID 和 顶点 属 - (追求 者 的 数量 ， 总 年 龄 ) ， 然 后 调用 这 个 VertexRDD 的 mapValues( ) 方 法 ， 
对 顶点 属性 进行 转换 ， 生 成 一 个 顶点 属性 为 追求 者 的 平均 年 纪 的 VertexRDD 对 象 。 


scala > val averageAge ; VertexRDD| Double | = userGraph. mapReduceTriplets| (Int, Double) | ( 

// 将 源 顶 点 的 属性 (1,Age) 发 送 给 目标 顶点 ,map 过 程 

edge => Iterator( (edge. dstld , ( 1 ,edge. srcAttr. age. toDouble) ) ) , 

/ 得 到 追求 着 的 数量 和 总 年 龄 

(ab)=>((a_ 1+b. 1),(a 2+b. 2)) 
). mapValues( (id,p) =>p. 2 / p. . 1) 
averageAge:; org. apache. spark. graphx. VertexRDD [ Double ] = VertexRDD [ 89 ] at RDD at 
VertexRDD. scala:58 


(4) 最 后 还 是 要 调用 userGraph. vertices. leftJoin ( ) 方法 使 得 userGraph 的 顶点 和 aver- 
ageAge 进行 左 连接 操作 生成 新 的 顶点 属性 值 ， 然 后 把 顶点 属性 值 在 spark - shell 控制 台 打 印 
出 来 。 从 输出 结果 中 ， 我 们 可 以 看 到 每 个 顶点 的 追求 者 的 平均 年 龄 ， 而 如 果 一 个 顶点 没有 追 


kA 〈 指 的 是 该 顶点 没有 入 度 ) up Ed 所 在 的 顶点 ， 那 么 在 左 连接 后 产生 的 新 图 中 ， 它 的 
顶点 属性 就 是 “Ed does not have any followers. ” , 


scala > userGraph. vertices. leftJoin( averageAge) | (id,user,optAverageAge) => 


optAverageAge match | 


case None 2» s"$ | user. name} does not have any followers. " 


case Some( avgAge) => s" The average age of$ | user. name} Vs followers is$avgAge. " 


| 
|. collect. foreach | case(id,str) => println( str) | 
15/05/18 19:46:36 INFO storage. BlockManager; Removing broadcast 15 
15/05/18 19:46:36 INFO storage. BlockManager; Removing block broadcast, 15 
15/05/18 19:46:36 INFO storage. MemoryStore ; Block broadcast, 15 of size 4496 dropped from memory 
( free 280188103) 


15/05/18 19:46:36 INFO scheduler. TaskSchedulerlmpl; Removed TaskSet 64.0, whose tasks have all 
completed , from pool 

15/05/18 19:46:36 INFO scheduler. DAGScheduler; Stage 64 (collect at < console > :42) finished in 
0.009 s 

15/05/18 19:46:36 INFO spark. SparkContext ; Job finished ;collect at < console > :42 ,took 0. 065586956 s 
The average age of David's followers is 27. 0. 
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The average age of Alice's followers is 34. 5. 
The average age of Fran's followers is 60. 0. 
The average age of Charlie's followers is 55. 0. 
Ed does not have any followers. 


The average age of Bob's followers is 60. 0. 


(5) 找 出 项 点 ID 为 5 ee te 首先 我 们 定义 一 个 顶点 ID 为 5 
的 源 点 ， 然 后 在 调用 graph. E ) 方 法 时 会 借助 这 个 源 点 的 ID. 是 否 与 图 中 的 某 些 顶 
点 的 ID 相等 来 生成 新 的 顶点 属性 ， 进 而 生成 一 个 新 E 图 initialGraph. 


scala > val sourceld : VertexId = 5L // 定 义 源 点 


sourceld : org. apache. spark. graphx. Vertexld = 5 

scala > val initialGraph = graph. mapVertices( (id, ) => if(id == sourceld) 0. 0 else Double. Posit 
ivelnfinity ) 

initialGraph : org. apache. spark. graphx. Graph[ Double , Int] = org. apache. spark. graphx. impl. Grap 
hImpl& 2b937e 


(6) 调用 initialGraph. pregel ( ) 方 法 来 完成 顶点 ID 2 EA) TU BS TU n3 E) pc ES BJ T 
算 ， 其 中 参数 Double. PositiveInfinity 是 一 个 初始 化 消息 ， 参 数 (id,dist,newDist) => math. min 
(dist,newDist) 是 一 个 顶点 更 新 图 数 ， 参 数 triplet => | …… 上 是 生成 发 送 消息 的 图 数 ， 参 数 
(a,b) => math. min(a,b) 是 每 个 目的 项 点 上 的 聚合 函数 。 最 终 会 产生 一 个 新 的 图 sssp。 


scala > val sssp = initialGraph. pregel ( Double. Positivelnfinity ) ( 
(id, dist, newDist) => math. min( dist , newDist ) , 
triplet => | /计算 权重 
if( triplet. srcAttr + triplet. attr < triplet. dstAttr) | 
Iterator( (triplet. dstId , triplet. srcAttr + triplet. attr ) ) 
| else | 


Iterator. empty 


| 
ie 
(a,b) => math. min(a,b) // 最 短 距离 
) 
15/05/18 19:51:44 INFO scheduler. DAGScheduler; running: Set( ) 
15/05/18 19:51:44 INFO scheduler. DAGScheduler; waiting; Set (Stage 370) 
15/05/18 19:51:44 INFO scheduler. DAGScheduler : failed ; Set( ) 
15/05/18 19:51:44 INFO scheduler. DAGScheduler; Missing parents for Stage 370 List( ) 
15/05/18 19:51:44 INFO scheduler. DAGScheduler ; Submitting Stage 370( MappedRDD[ 325 ] at map at 
VertexRDD. scala;111) ,which is now runnable 
15/05/18 19:51:44 INFO storage. MemoryStore ; ensureFreeSpace( 13776). called with 
curMem = 366920 , maxMem = 280248975 
15/05/18 19:51:44 INFO storage. MemoryStore; Block broadcast. 74 stored as values in memory ( esti- 
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mated size 13.5 KB ,free 266.9 MB) 


15/05/18 19:51:44 INFO storage. BlockManager: Removing RDD 290 
15/05/18 19:51:44 INFO rdd. ZippedPartitionsRDD2 ; Removing RDD 296 from persistence list > 
15/05/18 19:51:44 INFO storage. BlockManager ; Removing RDD 296 


sssp :org. apache. spark. graphx. Graph| Double , Int | = org. apache. spark. graphx. impl. GraphImpl 
@ 956020 


(7) 最 终 调用 println( sssp. vertices. collect. mkString( " Xn" ) ) 这 行 代码 把 图 sssp 的 顶点 收 
集 后 打印 到 spark - shell 控制 台 上 。 在 输出 结果 中 可 以 看 到 项 点 5 到 顶点 4 的 最 短 距离 是 4， 
顶点 5 到 顶点 1 的 最 短 距离 是 5， 大 家 可 以 把 计算 结果 跟 我 们 提供 的 Spark GraphX 属性 图 的 
数据 进行 比较 来 验证 我 们 是 否 求 出 了 顶点 5 到 各 个 顶点 的 最 短 距离 。 


scala > println( sssp. vertices. collect. mkString( " Wn" ) ) 

15/05/18 19:52:47 INFO spark. SparkContext : Starting job: collect at < console > :35 

15/05/18 19: 52: 47 INFO spark. MapOutputTrackerMaster; Size of output statuses for shuffle 1 is 
134 bytes 

15/05/18 19:52:47 INFO scheduler. DAGScheduler; Submitting Stage 415 ( VertexRDD[ 310] at RDD at 
VertexRDD. scala;58) , which has no missing parents 

15/05/18 19: 52:47 INFO storage. MemoryStore; ensureFreeSpace ( 13224 ) called with curMem = 
374784 , maxMem - 280248975 

15/05/18 19:52:47 INFO storage. MemoryStore ; Block broadcast. 75 stored as values in memory 
(estimated size 12. 9 KB, free 266. 9 MB) 

15/05/18 19:52:47 INFO scheduler. DAGScheduler; Submitting 1 missing tasks from Stage 415 ( Ver- 
texRDD[ 310] at RDD at VertexRDD. scala ;58) 

15/05/18 19:52:47 INFO scheduler. TaskSchedulerlmpl ; Adding task set 415. 0 with 1 tasks 

15/05/18 19:52:47 INFO scheduler. TaskSetManager: Starting task 0.0 in stage 415. 0 ( TID 75, local- 
host, ANY ,1680 bytes) 

15/05/18 19:52:47 INFO executor. Executor; Running task 0.0 in stage 415. O( TID 75) 

15/05/18 19:52:47 INFO storage. BlockManager: Found block rdd, 309 0 locally 

15/05/18 19:52:47 INFO scheduler. TaskSetManager: Finished task 0.0 in stage 415. O( TID 75) in 7 
ms on localhost ( 1/1 ) 

15/05/18 19:52:47 INFO scheduler. TaskSchedulerImpl ; Removed TaskSet 415.0, whose tasks have all 
completed , from pool 

15/05/18 19:52:47 INFO scheduler. DAGScheduler; Stage 415 ( collect at « console » :35) finished in 
0. 007 s 

15/05/18 19:52:47 INFO spark. SparkContext : Job finished; collect at < console > :35 ,took 0. 034727507 s 
(4,4.0) 

(1.5. 0) 

(6,3.0) 

(3,8.0) 
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(5,0.0) 
(2:2 4) 
至 此 ， 我 们 已 经 结合 Spark 官方 提供 的 Spark GraphX 属性 图 进行 了 一 系列 的 图 的 操 
作 。 在 这 里 如 果 对 图 的 操作 方法 的 含义 不 太 了 解 ， 可 以 翻 看 前 面 讲 图 的 操作 方法 的 定 
义 部 分 。 


| 于 Spark GraphX 图 算法 操作 实例 


1. 用 PageRank 算法 找 出 最 有 影响 力 的 文章 

(1) 算法 设计 。PageRank 是 Google 用 来 标识 网 页 的 等 级 / 重要 性 的 一 种 方法 ， 是 
Google 用 来 衡量 一 个 网 站 的 好 坏 的 唯一 标准 。PageRank 是 Google 最 核心 的 算法 ， 目 前 很 多 
重要 的 链接 分 析 算 法 都 是 在 PageRank 算法 基础 上 衍生 出 来 的 。 在 揉 合 了 诸如 Title 标识 和 
Keywords 标识 等 所 有 其 他 因素 之 后 ,Coogle 通过 PageRank 来 调整 结果 ， 使 那些 更 具 “ 等 级 / 
重要 性 ”的 网 页 在 搜索 结果 中 令 网 站 排名 获得 提升 ， 从 而 提高 搜索 结果 的 相关 性 和 质量 。 
其 级 别 从 0 到 10 级 , 10 级 为 满分 。PR 值 越 高 说 明 该 网 页 越 受 欢迎 ( 越 重 要 ) 。PageRank 的 
基本 算法 如 图 8-11 所 示 。 


PageRank vector q is defined as q=Gq 


where 1 
G-a5(1—0)-- U 


m S is the destination-by-source stochastic matrix, 
a U is all one matrix. 
a n is the nmumber of nodes 0 0 


0 0 

is th ight bet 0 and 1(e.g.,0.85 
g ais the weight between 0 and 1(e.g., ) Jisa 20:4 
Algorithm:lterative powering for finding the first eigen- G= 1/3 1/2 0 0 
vector 1⁄3 1⁄2 1 0 


qa G q^" 


[d 8-11 PageRank 的 基本 算法 


我 们 假设 有 1、2、3、4 共 四 张 网 页 ，PageRank 会 把 每 一 个 网 页 的 权重 设置 为 ,例如 ID 
为 1 的 网 页 指向 卫 分 别 为 2、3、4 这 三 个 网 页 ， 则 耳 2, 3, 4 的 网 页 则 分 别 获 得 来 自 ID 
为 1 的 网 页 的 173 的 权重 ， 其 他 类 似 ， 这 四 个 网 页 之 间 的 应 用 关系 构成 了 一 个 和 矩阵， 然后 该 
HEM A PageRank 中 的 向 量 进行 相 乘 得 出 新 的 向 量 ， 新 的 向 量 继续 和 天 阵 进行 相 乘 ， 不 断 的 
IER, Google 已 经 证 明 该 迁 代 过 程 是 收敛 的 ， 可 以 设 定 具 体 俘 止 收敛 的 参数 ， 例 如 前 后 迭代 
的 误差 小 于 0.001 ATLA (EU SX, OS oS e T d AY PageRank 值 就 是 各 个 网 页 的 PageRank 
值 。 实 际 应 用 中 PageRank 的 实现 会 有 多 种 ， 开 发 者 可 以 根据 自己 的 需要 进行 选择 。 
SparkGraphX 在 pregel 图 计算 算法 引擎 中 自 带 了 PageRank 算法 ， 可 以 直接 应 用 PageRank 相 
关 的 处 理 中 。 

本 案例 中 的 数据 是 来 自 经 过 处 理 的 维基 百科 的 数据 ， 通 过 ETL (Extract - Transform - 
Load) 把 所 有 含有 或 者 指向 “Berkeley” 字 段 的 标题 文章 保留 下 来 ， 最 终 形 成 项 点 的 文件 
" eraphx- wiki- vertices. txt" 和 边 的 文件 “graphx-wiki-edges”， 顶 点 文件 “graphx- wiki- verti- 
ces. xt". 的 格式 是 文章 VertexID 和 文章 标题 title 的 形式 ， 内 容 如 下 所 示 。 
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6598434222544540151 Adelaide Hanscom Leeson 
7814958205460279317 David Dodge (novelist) 
3858831448322232257 Howard League for Penal Reform 
1778261942684788432 Chelsea Quinn Yarbro 
4201849915685975228 Dominick Montiglio 

7447657998247897725 Joseph W. Estabrook 
7816201114341688960 Spencer J. Palmer 

290343697355110541 Aquatic Park (Berkeley) 
1748906252821810168 Johan Galtung 

3683742251178101007 Henry Howard, 7th Duke of Norfolk 
8277480409175395091 Carl Dennis 

8847001713698823343 Robert Axelrod 

4011285656061867661 National Parliamentary Debate Association 
1547980201223606474 Candice Nelson 

5513532495900171287 Cartoon 

1629895207124579982 Be Our Guest 

7866692046732241596 Music of Zimbabwe 

4898810267628502395 Scotland 

6737425368859109805 Edward Clive, 1st Earl of Powis 
1765549826147530806 Google China 

3010917619061986335 List of law schools in the United States 
3019612430337146753 Precision Array for Probing the Epoch of Reionization 
4718514066033048587 Warren High School (Downey, California) 
6314370141037326768 Tim Martin (soccer) 

4083931767643834830 Hanna Fenichel Pitkin 
1841504234031858904 Joe Simitian 

7163376924188487387 1685 in Ireland 

3661731617180698369 Ruth apRoberts 

4306160710005457497 Rent control in the United States 
8293104100186806717 Waldo Rudolph Wedel 
1730480826804290724 Philosophy of perception 
1731073599876833348 Stonewall Nation 


边 的 文件 “graphx-wiki-edges” 的 格式 就 是 源 顶 点 与 目标 顶点 的 VertexID 的 信息 ， 


B6359329835505530 6843358505416683693 


168437400931144903 961421098734626813 
168437400931144903 1367968407401217879 
168437400931144903 2270437664547777682 
168437400931144903 2381426201672413470 
168437400931144903 3694025250309277803 
168437400931144903 4289177408495534056 
168437400931144903 4876378461651498574 
168437400931144903 4898810637927996530 
168437400931144903 5397795112799724806 
168437400931144903 5513532497162072006 
168437400931144903 5513532497446264506 
168437400931144903 5781525238152196030 
168437400931144903 6033170360494767837 
168437400931144903 7647287135606994048 
168437400931144903 8057641240036215591 
168437400931144903 8069908956126960798 
168437400931144903 8405829285832207680 
179898883283219993 4315052278831489964 
301281802531867654 8830299306937918434 
342557919038552715 1735121673437871410 
363637519111040326 5784754943817951325 
367077018140722643 8830299306937918434 
448158325318360380 1661310991689113163 
448158325318360380 2171120834129478019 
448158325318360380 3771414652354456722 
448158325318360380 4441006350962354301 
448158325318360380 4898810696993654771 
448158325318360380 5465543055669093770 
448158325318360380 6576781245834002227 
448158325318360380 8873173869374784130 
502611354830537043 7097126743572404313 


如 下 


通过 PageRank 的 计算 ， 找 出 最 有 价值 的 、 包 含 “Berkeley” 字 段 标题 的 文章 。 
(2) 实现 代码 。 代 码 使 用 scala 实现 ， 如 下 : 


; Spark 


import org. apache. log4j. | Level , Logger } 


import org. apache. spark. | SparkContext , SparkConf | 


import org. apache. spark. graphx. _ 


import org. apache. spark. rdd. RDD 


objectPageRank | 


def main( args; Array| String] ) | 

// PERH zs 

Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 
Logger. getLogger( " org. eclipse. jetty. server" ). setLevel( Level. OFF) 


// 设 置 运行 环境 
val conf = newSparkConf( ). setAppName( " PageRank" ). setMaster( " local" ) 
val sc = newSparkContext ( conf) 


// 读 入 数据 文件 


val articles; RDD[ String] = sc. textFile( " /root/Downloads/graphx — wiki /graphx — wiki — vertices 


. txt" ) 


val links; RDD | String ] = sc. textFile ( "/root/Downloads/graphx — wiki /graphx — wiki — 


edges. txt" ) 


// 装 载 顶 点 和 边 

val vertices = articles. map | line => 
val fields = line. split('\t') 
(fields (0). toLong, fields( 1) ) 


val edges = links. map | line => 
val fields = line. split('\t') 
Edge( fields( 0). toLong, fields( 1). toLong ,0) 


// cache 操作 
//val graph = Graph( vertices , edges , " " ). persist( StorageLevel. MEMORY ONLY SER) 


val graph = Graph( vertices , edges , " " ). persist( ) 


// graph. unpersistVertices( false ) 


// 测 试 

println( " Kk k k k k k k k 3k GK Gk Gk Gk Gk Gk k Gk Gk k k K k Gk Gk Gk Gk Gk k ak Gk ak k k K Gk Gk Gk Gk Gk Gk Gk Gk 3k 3k k 3k Gk Gk Gk Gk Gk Gk Gk k k k k "' 
. . Dm 

printIn( "获取 5 个 triplet 信息 ") 

printlIn( " 3K K k k ok 3k ok ok K k ok 3k ok GK ok oe K ok 3k 3k ok ok ok ok k ok >K ok ok ok ok ok ok ok ok ok ok ok ok ok ok ok kok ok kok Gk k 3K kok Gk k k k k "' 


graph. triplets. take( 5). foreach( println(_) ) 
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// pageRank 算法 里 面 的 时 候 使 用 了 cache( ) , 故 前 面 persist 的 时 候 只 能 使 用 /AMEMORY_ONLY 


println ( ” : sc ss s kc sese sk se sk se ok se ok e sec se ok oe ok oe sk de sje beoe ok oe GIGI GIGI ole oko GI k k k a k k ok ok k kkk" ) 


println( " PageRank 计算 ,获取 最 有 价值 的 数据 " ) 


println ( ” : sc ses s ok sese sk se sk se ok oe ok ke se o sek oe ok oe sk de ojo se IGG GIGI ole IOI ICI IC k 2 3s k k kok ak ak kkk" ) S 


valprGraph = graph. pageRank (0. 001). cache( ) 


valtitleAndPrGraph = graph. outerJoinVertices( prGraph. vertices) | 
( v,title, rank) => (rank. getOrElse(0. 0) ,title) 
| 


titleAndPrGraph. vertices. top(10) | 
Ordering. by( (entry: ( VertexId , ( Double, String) ) ) => entry. _2. _1) 
|. foreach(t => println (t. 2. 2+":" +t 2. 1)) 


sc. stop( ) 


| 


(3) 代码 分 析 如 下 

1) 屏蔽 日 志 : 通过 调用 Java 语言 中 的 Logger 的 两 个 getLogger( ) 方 法 创建 两 个 Logger 
对 象 ， 然 后 调用 它 的 setLevel( ) 方 法 设置 日 志 消 息 输 出 的 级 别 分 别 是 Level. WARN 和 Lev- 
el. OFF， 在 各 目的 Logger 对 象 中 ， 低 于 设置 的 Logger 级 别 的 日 志 信 息 将 被 丢弃 。 

2) 设置 运行 环境 : 通过 val conf = new SparkConf( ). set&ppName( " PageRank" ). setMaster 
("local[ 2 | " ) FH val sc = new SparkContext ( conf) 这 两 行 代 码 来 初始 化 SparkConf 和 SparkCon- 
text X IR 

3) 读 取 数据 : 分 别 调用 sc. textFile( ) Z7 15 M/root/Downloads/ graphx - wiki E 3 P ie B Thi 
点 文件 graphx - wiki — vertices. txt 和 边 的 文件 graphx - wiki — edges. txt, 

4) 接 下 来 装载 项 点 和 边 : 把 读 进来 的 两 个 文件 进行 map C) 转换 操作 后 生成 vertices 和 
edges 两 个 RDD IX FEDER KF IU AY RDD, 

5) 根据 装载 的 顶点 和 边 来 构建 图 : 调用 val graph = Graph ( vertices , edges , " " ). persist( ) 
来 构建 图 ， 并 且 在 这 里 要 对 构建 好 的 图 进行 一 下 cache PE, persist ) EXIIT] ETR Wi E 
cache。 需 要 格外 注意 的 是 因为 在 进行 PageRank 的 时 候 需 要 进行 不 断 的 迭代 ， 所 以 需要 把 
Graph 进行 cache 缓存 操作 ， 在 这 里 使 用 以 StorageLevel. MEMORY. ONLY 为 参数 的 persist 或 
则 cache 都 可 以 ,但 是 不 要 使 用 其 他 类 型 的 StorageLevel (缓存 策略 ) ， 因 为 使 用 其 他 类 型 的 
persist 会 与 PageRank 内 部 的 cache 缓存 类 型 产生 冲突 。 

6) 接 下 来 我 们 调用 graph. triplets. take( 5) . foreach ( println( _) ) 来 显示 五 个 Triplets 的 信 
RIRE, 看 一 下 是 不 是 部 具有 “Berkeley” 这 个 关键 字 ， 如 图 8-12 的 运行 代码 所 示 ， 
可 以 发 现 目标 顶点 都 是 含有 “Berkeley” 关 键 字 的 文章 。 

7) 接 下 来 进行 PageRank 的 计算 : 由 于 PageRank 算法 里 面 的 时 候 使 用 了 cache( ) ， 故 前 
面 调用 persist ( ) 方法 进行 缓存 的 时 候 只 能 使 用 MEMORY, _ONLY。 调 用 val prGraph = 
graph. pageRank (0. 001). cache( ) 这 行 代码 进行 PageRank 的 计算 。 我 们 给 PageRank 传人 的 参 
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; Spark 


ioio 

获取 5 个 triplet 

Se ee ee ee ce ce ec en ee eco ee oleo 

15/5/29 22:17:54 INFO deprecation: mapred.tip.id is deprecated. Instead, use mapreduce. task. id 

15/5/29 22:17:54 INFO deprecation: mapred. task. id is deprecated. Instead, use mapreduce. task. attempt. id 
15/5/29 22:17:54 INFO deprecation: mapred.task.is.map is deprecated. instead, use mapreduce. task. ismap 
15/5/29 22:17:54 INFO deprecation: mapred. task. partition is deprecated. instead, use mapreduce. task. partition 
15/5/29 22:17:54 INFO deprecation: mapred. job. id is deprecated. Instead, use mapreduce. job. id 
((146271392968588, Computer Consoles Inc. ), (7097126743572404313, Bekeley Software Distribution), 0) 

( (146271392968588, Computer Consoles Inc. ), (8830299306937918434, University of California, Berkeley), 0) 
((1889887370673623, Anthony Pawson), (8830299306937918434, University of California, Berkeley), 0) 
((1889887370673623, Anthony Wilden), (6990487747244935452, Busby Berkeley), 0) 

((3844656966074398, Pacific Boychoir) , 8262690695090178653, Uc berkeley), 0) 
biokos 


图 8-12 获取 五 个 triplet 信息 的 运行 代码 


数 是 0.001， 也 就 是 说 前 一 次 迭代 和 后 一 次 迭代 误差 如 果 小 于 0.001 的 时 候 ， 我 们 就 结束 和 迭 
代 ， 从 而 返回 计算 出 的 PageRank 值 的 集合 。 

8) 返回 来 后 的 含有 PageRank 值 的 顶点 的 集合 因为 没有 顶点 的 属性 ， 也 就 是 说 没有 文章 
的 标题 ， 所 以 要 调用 val titleAndPrGraph = graph. outerJoinVertices( prGraph. vertices) | (v,title, 
rank) => (rank. getOrElse(0.0) ,title) | 这 段 代 码 进 行 连 接 操作 。 

9) 然后 调用 titleAndPrGraph. vertices. top( 10). | Ordering. by ( (entry; ( VertexId , ( Double, 
String) )) => entry. 2. 1) |. foreach(t => printlni(t. 2. 2 +":" +t 2. 1)) 这 段 代 码 进行 顶 
点 的 排序 ， 并 获取 最 有 价值 的 前 10 名 的 文章 。 

10) 最 后 调用 sc. stop( ) 关闭 SparkContext ， 在 调用 SparkContext 的 stop( ) 方 法 的 时 候 会 完成 
Spark 驱动 和 任务 调度 系统 中 的 DACScheduler 和 TaskScheduler 等 内 容 资 源 释放 和 清理 等 工作 。 

(4) 程序 运行 过 程 。 程 序 运行 过 程 截图 如 图 8-13 所 示 。 


/usr/1lib/ java/ jdk1. 8. 0_20/bin/ java... 

Using Spark s default log4j profile:org/apache/spark/log4j-defaults. properties 

15/5/30 10:02:31 INFO slf4jLogger:slf4jLogger started 

15/5/30 10:02:32 INFO Remoting:Starting remoting 

15/5/30 10:02:33 INFO Remoting:Remoting started;listening on addresses : [akka. tcp://sparkDriver(üSparkMaster:59580] 
15/5/30 10:02:33 INFO Remoting:Remoting now listens on addresses: [akka. tcp: //sparkDriver@SparkMaster : 59580] 
15/5/30 10:02:44 WARN NativeCodeLoader:Unable to load native-hadoop library for your platform...using builtin-java cl 
15/5/30 10:02:48 WARN SizeEstimator:Failed to check whether UseCompressedOops is set;assuming yes 

15/5/30 10:02:52 INFO FileInputFormat:Total input paths to process:1 

15/5/30 10:02:53 INFO FileInputFormat:Total input paths to process:1 
eskokokeskokekeskokenekodesoleseskolesoleesolestolesoleeskolesleleskolenskeeskoleeskolesojeleskoleeskolesoleestolesole 
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六 六 六 六 六 六 六 六 闵 六 六 六 玉 六 闵 六 六 六 闵 玉 玉 六 玉 六 六 玉 六 玉 玉 六 闵 六 冰冰 六 六 玉 六 六 六 六 六 六 六 六 玉 玉 来 闵 六 闵 六 六 六 六 六 来 冰 

15/5/30 10:02:57 INFO deprecation:mapred. tip. id is deprecated. Instead, use mapreduce. task. id 

15/5/30 10:02:57 INFO deprecation:mapred. task. is. map is deprecated. Instead, use mapreduce. task. ismap 
15/5/30 10:02:57 INFO deprecation:mapred. task. id is deprecated. Instead, use mapreduce. task. attempt. id 
15/5/30 10:02:57 INFO deprecation:mapred. job. id is deprecated. Instead, use mapreduce. job. id 

15/5/30 10:02:57 INFO deprecation:mapred. task. partition is deprecated. Instead, use mapreduce. task. partition 
((146271392968588, Computer Consoles Inc.), (7097126743572404313, Berkeley software Distribution), o) 
((146271392968588, Computer Consoles Inc.), (8830299306937918434, Uninversity of California, Berkeley), 0) 
((1889887370673623, Anthony Pawson), (8830299306937918434, University of California, Bekeley), 0) 
((1889887370673623, Anthony Pawson), (6990487747244935452, Busby Berkeley), 0) 

( (3044656966074398, Pacific Boychoir), (8262690695090170653, Uc berkeley), 0) 
seskokokeskokekeskolenestodeskoeseskolessleeseoesesketeskoleneskodesoleeskoleseskedesoleeskolesoleeskolenesletesoleleskotesol 

PageRank 计 算 ， 获 取 最 有 价值 的 数据 

ee ee ee ee ee okooko eee ee eee cee ee k 

15/5/30 10:03:25 WARN BlockManager:Block rdd 267 0 already exists on this machine; not re-adding it 
University of California, Berkeley:1321. 1117543121227 

Berkeley, California:664. 8841977233989 

Uc berkeley:162. 5013274339786 

Berkeley Software Distribution:90. 47860388486127 

Lawrence Berkeley National Laboratory:81. 90404939642022 

George Berkeley:81. 852261184458043 

Busby Berkeley:47.87199821801991 

Berkeley Hills:44. 76406979519929 

Xander Berkeley:30. 32407534728813 

Berkeley County, South Carolina: 28. 908336483710315 

15/5/30 10:03:42 INFO RemoteActorRefprovider$RemotingTerminator :Shutting down remote daemon. 

15/5/30 10:03:42 INFO RemoteActorRefprovider$RemotingTerminator:Remote daemon shut down;proceeding with flushing remote 
Process finished with exit code 0 
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程序 运行 结果 会 按照 PageRank 值 由 大 到 小 的 顺序 打印 出 10 条 记录 。PageRank 值 越 大 ， 
说 明 该 文章 影响 力 越 大 。 从 上 述 程序 运行 结果 可 以 发 现 ， 被 应 用 最 多 而 影响 力 最 大 的 题目 为 
“University of California, Berkeley" 3X3 X 5i. 

(5) 性 能 改进 方案 。 因 为 图 计算 中 一 般 涉及 的 顶点 和 边 非常 多 ,一 般 会 到 达 上 千 万 其 (>) 
至 过 亿 的 顶点 ， 所 以 如 果 要 改进 性 能 一 个 比较 好 的 方式 是 打开 序列 化 器 并 采用 Google 的 Kryo 
序列 化 器 ， 我 们 可 以 把 Spark 安装 目录 中 的 conf 目录 下 的 “spark - defaults. conf. template" 复 
制 成 “spark — defaults. conf” : 


Ifairscheduler.xml.template spark-default.conf 
上 Log4j .properties .tempLate spark-defaults.conf.template 


Imetrics.properties.template  spark-env.sh 
[slaves spark-env.sh.template 


然后 打开 “spark - defaults. conf" : 


[E "spark - defaults. conf” 中 加 入 如 下 内 容 : 


spark.serializer org.apache.spark.serializer.KryoSerializer 


spark.kryo.registrator org.apache.spark.graphx.GraphkryoRegistrator 


这 样 就 为 Spark GraphX 配置 好 了 应 给 Kryo 序列 化 髓 。 

(6) 可 复 用 性 。 本 算法 广泛 适用 于 一 般 的 社交 网 络 、 电 子 商务 、 视 频 推 荐 等 内 容 ， 例 
如 FaceBook 、 微 信 、 微 博 、Twitter 、LinkedIn 、 淘 宝 、 京 东 商 城 等 ， 获 取 到 相关 的 数据 后 可 
以 使 用 Spark SQL 进行 ETL， 获 取 到 满足 格式 要 求 的 业务 关注 数据 ， 就 可 以 计算 出 每 个 Item 
的 影响 力 值 ， 评 价 Item 的 影响 力 。 

(7) 程序 扩展 。 在 实际 的 生产 环境 中 ，IT 系统 一 般 会 采集 用 户 的 行为 数据 以 日 志文 件 
的 方式 存储 ， 当 日 志文 件 导 入 到 Spark 所 文 持 的 分 布 式 存储 系统 后 ， 可 以 使 用 Spark SQL 进 
ÍT ETL 产 出 目标 数据 ， 然 后 使 用 本 案例 中 的 类 似 算法 进行 数据 的 深度 挖 气 ， 来 达到 从 数据 
中 提取 出 更 有 价值 的 信息 来 更 好 的 支持 业务 的 目的 。 
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1. 在 Spark GraphX 中 实现 了 Pregel 模型 ， 但 是 Spark GraphX 中 的 Pregel 模型 并 不 严格 
遵循 标准 的 Pregel 模型 ， 它 是 一 个 参考 了 GAS 模型 (邻居 更 新 模型 ) 后 改进 的 模型 。 这 样 
的 改进 有 什么 优势 ? 

2. Spark GraphX 的 几 种 常用 类 型 的 图 操作 ， 你 是 否 已 经 熟练 掌握 ， 并 可 以 在 生产 环境 下 
熟练 使 用 ? 

3. 对 于 图 计算 ， 最 复杂 的 就 是 图 算法 了 。 在 Spark GraphX 中 帮 有 我 们 封装 了 图 算法 的 具 
体 实 现 ， 使 得 我 们 可 以 很 方便 的 调用 一 些 简单 的 方法 就 可 以 完成 负责 的 图 数据 的 计算 。 当 然 
对 于 像 PageRank 这 样 的 浓 用 的 算法 ， 你 是 否 了 解 它 的 源码 实现 ， 并 在 生产 环节 熟练 使 用 它 
来 进行 图 数据 的 操作 ? 
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机 器 学 习 简介 


SOUL 机 器 学 习 的 定义 | 


机 器 学 习 (Machine Learning, ML) 是 一 门 多 领域 交叉 学 科 ， 涉 及 概率 论 、 统 计 学 、 凸 
分 析 、 算 法 复杂 度 理 论 等 多 门 学 科 。 它 专门 研究 计算 机 怎样 模拟 或 实现 人 类 的 学 习 行 为 ， 以 
获取 新 的 知识 或 技能 ， 重 新 组 织 已 有 的 知识 结构 使 之 不 断 改善 自身 的 性 能 。 机 融 学 习 是 人 工 
智能 (AL, artificial intelligence) 领域 中 与 算法 相关 的 一 个 子 域 ， 它 允许 计算 机 不 断 地 进行 
学 习 。 大 多 数 情况 下 ， 这 相当 于 将 一 组 数据 传递 给 算法 ， 并 由 算法 推断 出 与 这 些 数据 的 属性 
相关 的 信息 ， 代 助 这 些 信息 ， 算 法 就 能 够 预测 出 未 来 有 可 能 会 出 现 的 其 他 数据 。 

机 楷 学 习 有 下 面 几 种 定义 :“ 机 棍 学 习 是 一 门人 工 智能 的 科学 ， 该 领域 的 主要 人 研究 对 象 
是 人 工 智 能 ， 特 别 是 如 何在 经 验 学 习 中 改善 具体 算法 的 性 能 ”。 ”机 融 学 习 是 对 能 通过 经 验 自 
动 改进 的 计算 机 算法 的 研究 ”。 ”机 天 学 习 是 用 数据 或 以 往 的 经 验 ， 以 此 优化 计算 机 程序 的 性 
能 标准 。” 一 种 经 常 引 用 的 英文 定义 是 :“A computer program is said to learn from experience E 
with respect to some class of tasks T and performance measure P, if its performance at tasks in T, 
as measured by P, improves with experience E. ”对 于 机 器 学 习 的 英文 定义 ， 我 们 可 以 结合 
图 9-1 做 一 下 解释 。 


=> e) a 
0 <u <u <u < Ü 


图 9-1 机 各 学 习 的 处 理 过 程 


如 图 9-1 所 示 ， 机 融 学 习 的 处 理 过程 是 : 首先 数据 通过 算法 构建 出 模型 并 对 模型 进行 
PH: 接着 评估 的 性 能 如 果 达 到 要 求 束 拿 这 个 模型 来 测试 其 他 数据 ， 如 采 达 不 到 要 求 就 要 调 
整 算法 来 重新 建立 模型 ， 再 次 进行 评估 ; 如 此 循环 往复 ,最 终 获得 满意 的 经 验 来 处 理 其 他 
数据 。 

机 天 学 习 已 经 有 了 十 分 广泛 的 应 用 ， 例 如 : 数据 挖掘 、 计 算 机 视觉 、 自 然 语 言 处 理 、 生 
物 特征 识别 、 搜 索引 擎 、 医 学 诊断 、 检 测 信 用 卡 欺诈 、 证 券 市 场 分 析 、DNA 序列 测序 、 语 
首 和 手写 识别 、 战 略 游 戏 和 机 和 旧 人 运用 等 。 这 些 应 用 场景 已 经 完全 徐 盖 了 我 们 日 常生 活 中 的 
衣食 住 行 ， 例 如 我 们 可 以 借助 衣物 销售 数据 和 客户 调查 数据 对 特定 的 客户 提出 针对 性 的 时 尚 
建议 ， 借 助 社交 网 络 数据 〈 文 本 和 地 理 位 置信 息 ) 给 出 餐馆 的 食物 中 毒 概率 ， 人 借助 建 贷 的 
工程 参数 和 能 耗 给 出 相似 建筑 的 能 耗 预 测 ， 借 助 交 通信 号 灯 的 图 片 和 意义 然后 在 实际 场景 
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立即 识别 出 信号 灯 的 信息 。 一 个 实际 的 例子 来 自 于 2006 年 美国 一 家 公司 Netflix 举办 的 一 个 
有 奖 竞 赛 ， 一 共有 480 189 个 用 户 对 17770 部 电影 的 100 480 507 条 评论 作为 初始 数据 ， 来 预 
测 用 户 未 来 的 评论 行为 ， 如 果 预 测 精确 度 较 之 前 提高 10% 以 上 ， 就 能 获得 100 万 美元 的 奖 
励 ，6 年 后 Netflix 基于 这 些 大 数据 制作 了 大 热 美剧 《纸牌 屋 》。 > 


机 器 学 习 的 分 类 


对 于 机 融 学 习 ， 根 据 不 同 的 方式 会 有 不 同 的 分 类 ， 可 以 按照 学 习 策 略 进行 分 类 ， 也 可 以 
按照 所 获取 知识 的 表示 形式 进行 分 类 ,或 者 按照 机 帮 学 习 的 算法 类 似 性 进行 分 类 等 。 在 这 里 
我 们 是 按照 机 右 学 习 的 学 习 方 式 进行 分 类 ， 这 种 分 类 方式 党 党 是 人 们 在 机 副 学 习 或 者 人 工 管 
能 领域 首先 考虑 到 的 分 类 方式 。 这 是 因为 考虑 到 数据 类 型 的 不 同 ， 对 一 个 问题 的 建 模 有 不 同 
的 方式 。 这 样 的 分 类 可 以 让 人 们 在 建 模 和 算法 选择 的 时 候 考虑 能 根据 输入 数据 来 选择 最 合适 
的 算法 来 获得 最 好 的 结果 。 

按照 学 习 方 式 我 们 将 机 器 学 习 分 成 监督 学 习 、 非 监督 学 习 、 半 监督 学 习 和 强化 学 习 四 
类 ， 下 面 针对 每 一 种 学 习 方 式 做 一 下 简单 的 介绍 。 

1. 监督 学 习 

监督 学 习 (Supervised Learning) 是 从 给 定 的 训练 数据 集 (在 监督 学 习 中 ， 输 入 数据 被 
称 为 训练 数据 ) 中 学 习 一 个 函数 (模型 )， 当 新 的 数据 到 来 时 ， 可 以 根据 这 个 函数 (模型 ) 
预测 结果 。 监 督学 习 的 训练 集 要 求 包括 输入 和 输出 ， 也 可 以 说 是 特征 和 目标 。 训 练 集中 的 目 
标 是 由 人 标注 (标量) 的 。 例 如 现在 有 一 批 训 练 数据 ， 其 中 每 组 训练 数据 有 一 个 明确 的 标 
识 或 结果 ， 如 对 防 垃圾 邮件 系统 中 “垃圾 邮件 ”“ 非 垃圾 邮件 ”， 或 者 是 对 手写 数字 识别 中 
的 “1”,“2”,“3”,“4” 等 。 在 建立 预测 模型 的 时 候 ， 监 督 式 学 习 建 立 一 个 学 习 过 程 ， 将 
预测 结果 与 训练 数据 的 实际 结果 进行 比较 ， 不断 地 调整 预测 模型 ， 直 到 模型 的 预测 结果 达到 
一 个 预期 的 准确 率 。 监 督 式 学 习 的 常见 应 用 场景 如 分 类 问题 和 回归 问题 。 常 见 算 法 有 远 辑 回 
JA (Logistic Regression) 和 反问 传递 神经 网 络 (Back Propagation Neural Network ) 。 

2. 非 监 督学 习 

JERE (Unsupervised Leaming) ， 也 叫 无 监督 学 习 。 与 监督 学 习 相 比 ， 非 监督 学 习 
用 到 的 训练 集 没有 人 为 标注 的 结果 。 在 非 监督 学 习 中 ， 数 据 并 不 被 特别 标识 ， 学 习 模 型 是 为 
了 推断 出 数据 的 一 些 内 在 结构 ， 这 听 起 来 似乎 有 点 不 
可 思议 ， 但 是 在 我 们 自身 认识 世界 的 过 程 中 很 多 地 方 
都 用 到 了 非 监督 学 习 。 比 如 我 们 去 参观 一 个 画展 ， 我 


们 完全 对 艺术 一 无 所 知 ， 但 是 欣赏 完 多 幅 作 品 之 后 ， Si 
RERE ENARA EIR] Ee Anpe E e — zA 
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派 ， 什 么 叫 作 写 实 派 ， 但 是 至 少 我 们 能 把 他 们 分 为 两 
个 类 ) 。 非 监督 学 习 常 见 的 应 用 场景 包括 关联 规则 的 
学 习 以 及 聚 类 等 。 常 见 的 算法 包括 Apriori 算法 和 上 - 
Means 算法 。 这 类 学 习 的 目标 不 是 让 效用 函数 最 大 ”图 9-? 以 RR 基础 包 日 带 的 高 尾 花 
化 ， 而 是 找到 训练 数据 中 的 近似 点 。 图 9-2 展示 的 是 ETE PHT 
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以 R 语言 内 建 的 竟 尾 花 数 据 集 进 行 聚 类 分 析 然 后 画 出 散 点 图 的 例子 ， 其 中 petal width Zan 4E 
HE GLE , petal length 表示 花 六 长度 ，sepal length 表示 人 花王 长 度 。 

3， 半 监督 学 习 

半 监 督学 习 (Semi - Supervised Learning) 是 介 于 监督 学 习 与 非 览 督学 习 之 间 一 种 机 可 
学 习 方式 ， 是 模式 识别 和 机 天 学 习 领 域 研究 的 重点 问题 ， 它 主要 考虑 如 何 利用 少量 的 标注 样 
本 和 大 量 的 未 标注 样本 进行 训练 和 分 类 的 问题 。 传 统 的 机 需 学 习 技 术 分 为 监督 学 习 和 非 监督 
学 习 两 类 。 监 督学 习 则 只 利用 标记 的 样本 集 进行 学 习 ， 而 非 监 督学 习 只 利用 未 标记 的 样本 
集 。 但 在 很 多 实际 问题 中 ， 只 有 少量 的 带 有 标记 的 数据 ， 因 为 对 数据 进行 标记 的 代价 有 时 很 
高 ， 比 如 在 生物 学 中 ， 对 茶 种 蛋白 质 的 结构 分 析 或 者 功能 鉴定 ， 可 能 会 花 上 生物 学 家 很 多 年 
的 工作 ， 而 大 量 的 未 标记 的 数据 却 很 容易 得 到 。 这 就 促使 能 同时 利用 标记 样本 和 未 标记 样本 
的 半 监 督学 习 技 术 迅 速 发 展 起 来 。 半 监督 学 习 对 于 减少 标注 代价 ， 提 高 学 习 机 融 性 能 具有 非 
常 大 的 实际 意义 。 它 的 主要 算法 有 五 大 类 : 基于 概率 的 算法 ; 在 现 有 监督 算法 基础 上 作 修 改 
的 算法 ; 直接 依赖 于 聚 类 假设 的 算法 ; 基于 多 视图 的 算法 ; 基于 图 的 算法 。 

4. 强化 学 习 

强化 学 习 (Reinforcement Learning) ， 又 称 再 励 学 习 ， 评 价 学 习 。 通 过 观察 来 学 习 如 何 
完成 动作 ， 每 个 动作 都 会 对 环境 有 所 影响 ,学习 对 象 根据 观察 到 的 周围 环境 的 反馈 来 做 出 判 
断 。 在 这 种 学 习 模 式 下 ， 输 入 数据 作为 对 模型 的 反 饶 ， 不 像 监督 模型 那样 输入 数据 仅仅 作为 
一 个 检查 模型 对 错 的 方式 。 在 强化 学 习 下 ， 输 入 数据 直接 反馈 到 模型 ， 模 型 必须 对 此 立刻 做 
出 调整 。 目 前 强化 学 习 在 很 多 领域 已 经 成 功 获得 应 用 ， 比 如 自动 直升机 ， 机 各 人 控制 ， 手 机 
网 络 路 由 ， 市 场 决策 ， 工 业 控制 ， 高 效 网 页 索引 等 。 和 见 的 强化 学 习 算 法 包括 Q - Learning 
以 及 时 间 差 学 习 (Temporal difference learning) 。 

最 后 我 们 总 结 一 下 各 种 学 习 方式 目前 的 主要 应 用 场景 : 在 企业 数据 应 用 的 场景 中 ， 人 们 
最 常用 的 可 能 就 是 监督 式 学 习 和 非 监 督 式 学 习 的 模型 ， 在 图 像 识别 等 领域 ,由 于 存在 大 量 的 
非 标识 的 数据 和 少量 的 可 标识 数据 ， 目 前 半 监 督 式 学 习 是 一 个 很 热 的 话题 ; 而 强化 学 习 更 多 
的 应 用 在 机 堪 人 控制 及 其 他 需要 进行 系统 控制 的 领域 。 


机 器 学 习 的 常用 算法 


根据 算法 的 功能 和 形式 的 类 似 性 ， 我 们 可 以 把 算法 分 类 ， 比 如 说 基于 树 的 算法 ， 基 于 神 
经 网 络 的 算法 等。 但 是 机 带 学 习 的 范围 非常 庞大 ， 有 些 算法 很 难 明确 归 类 到 茶 一 类 。 而 对 于 
有 些 分 类 来 说 ， 同 一 分 类 的 算法 可 以 针对 不 同类 型 的 问题 。 这 里 ， 我们 尽量 把 常用 的 算法 按 
照 最 容易 理解 的 方式 进行 分 类 。 

1. 回归 算法 

回归 算法 是 试图 采用 对 误差 的 衡量 来 探索 变量 之 间 的 关系 的 一 类 算法 。 回 归 算 法 是 统计 
机 融 学 习 的 利 硕 。 在 机 器 学 习 领 域 ， 人 们 说 起 回归， 有 时 候 是 指 一 类 问题 ， 有 时 候 是 指 一 类 
Bi, KOA HASSE ATA. FLAY ARIE AG: 最 小 二 乘法 (Ordinary Least 
Square) 、 逻 辑 回 归 (Logistic Regression) ) 、 逐 步 式 回归 (Stepwise Regression) 、 多 元 自 适 应 
回归 样 条 (Multivariate Adaptive Regression Splines) 以 及 本 地 散 点 平滑 估计 (Locally Esti- 
mated Scatterplot Smoothing) 。 
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2. 基于 实例 的 算法 

基于 实例 的 算法 常 第 用 来 对 决策 问题 建立 模型 ， 这 样 的 模型 常常 完 选 取 一 批 样本 数据 ， 
然后 根据 某 些 近似 性 把 新 数据 与 样本 数据 进行 比较 。 通 过 这 种 方式 来 寻找 最 佳 的 匹配 。 因 
此 ， 基 于 实例 的 算法 常常 也 被 称 为 “赢家 通 吃 ” 学 习 或 者 “基于 记忆 的 学 习 " 。 常 见 的 算法 S) 
包括 K - Nearest Neighbor (KNN ) 、 学 习 矢 量 量化 (Learning Vector Quantization, LVQ) 、 以 
及 上 自 组 织 映 射 算法 (Self - Organizing Map, SOM) 。 

3. 正则 化 方法 

正则 化 方法 是 其 他 算法 (通常 是 回归 算法 ) 的 延伸 ， 根 据 算法 的 复杂 度 对 算法 进行 调 
整 。 正 则 化 方法 通常 对 简单 模型 予以 奖励 而 对 复杂 算法 予以 惩罚 。 各 见 的 算法 包括 : Ridge 
Regression, Least Absolute Shrinkage and Selection Operator ( LASSO) 以 及 弹性 网 络 (Elastic 
Net) 。 

4. 决策 树 算 法 学 习 

决策 树 算法 根据 数据 的 属性 采用 树 状 结构 建立 决策 模型 ， 决 策 树 模型 常常 用 来 解决 分 类 
和 回归 问题 。 和 常见 的 算法 包括 : 分 类 及 回归 树 (Classification And Regression Tree, CART) 、 
ID3 (Iterative Dichotomiser 3) , Chi - squared Automatic Interaction Detection ( CHAID) , Deci- 
sion Stump 、 随 机 森林 (Random Forest) 、 多 元 自 适 应 回归 样 条 (MARS) 以 及 梯度 推进 机 
( Gradient Boosting Machine，CBM ) 。 

5. 贝 叶 斯 方法 

贝 叶 斯 方法 算法 是 基于 贝 叶 斯 定理 的 一 类 算法 ， 主 要 用 来 解决 分 类 和 回归 问题 。 常 见 算 
法 包括 : 朴素 贝 叶 斯 算法 、 平 均 单 依赖 估计 (Averaged One - Dependence Estimators, AODE) 
以 及 Bayesian Belief Network (BBN) 。 

6. 基于 核 的 算法 

基于 核 的 算法 中 最 著名 的 莫 过 于 文 持 向 量 机 (SVM) 了 。 基 于 核 的 算法 把 输入 数据 映 
射 到 一 个 高 阶 的 向 量 空 间 ， 在 这 些 高 阶 向 量 空间 里 ， 有 些 分 类 或 者 回归 问题 能 够 更 容易 的 解 
决 。 常 见 的 基于 核 的 算法 包括 : 支持 问 量 机 (Support Vector Machine, SVM) , 4% [A] dE eR 
(Radial Basis Function, RBF) 以 及 线性 判别 分 析 (Linear Discriminate Analysis, LDA) 等 。 

7. 聚 类 算法 

聚 类 ， 就 像 回归 一 样 ， 有 时 候 人 们 描述 的 是 一 类 问题 ， 有 时 候 描 述 的 是 一 类 算法 。 聚 类 
算法 通 稼 按照 中 心 点 或 者 分 层 的 方式 对 输入 数据 进行 归并 。 所 有 的 聚 类 算法 都 试图 找到 数据 
的 内 在 结构 ， 以 便 按照 最 大 的 共同 点 将 数据 进行 归 类 。 和 常见 的 聚 类 算法 包括 k - Means 算法 
以 及 期 望 最 大 化 算法 (Expectation Maximization, EM) , 

8. 关联 规则 算法 

关联 规则 算法 通过 寻找 最 能 够 解释 数据 变量 之 间 关 系 的 规则 ， 来 找 出 大 量 多 元 数据 集中 
有 用 的 关联 规则 。 常 见 算法 包括 Apriori 算法 和 Eclat 算法 等 。 

9. 人工 神经 网 络 

人 工 神 经 网 络 算法 模拟 生物 神经 网 络 ， 是 一 类 模式 匹配 算法 。 通 常用 于 解决 分 类 和 回归 
问题 。 人 工 神 经 网 络 是 机 各 学 习 的 一 个 庞大 的 分 文 ， 有 几 百 种 不 同 的 算法 (其 中 深度 学 习 
就 是 其 中 的 一 类 算法 ， 后 面 会 单独 介绍 ) 。 重 要 的 人 工 神 经 网 络 算法 包括 : 感知 希 神 经 网 络 
(Perceptron Neural Network) 、 反 向 传递 (Back Propagation) Hopfield 网 络 、 自 组 织 映 射 
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(Self - Organizing Map ，SOM ) 。 学 习 矢 量 量化 (Learning Vector Quantization, LVQ) 。 

10. 深度 学 习 算 法 

深度 学 习 算 法 是 对 人 工 神经 网 络 的 发 展 。 在 百度 开始 发 力 深 度 学 习 后 ， 更 是 在 国内 引起 
了 很 多 关注 。 在 计算 能 力 变 得 日 益 廉价 的 今天 ， 深 度 学 习 试 图 建立 很 大 也 很 复杂 的 神经 网 
络 。 很 多 座 度 学 习 的 算法 是 半 监 督 式 学 习 算 法 ， 用 来 处 理 存 在 少量 未 标识 数据 的 大 数据 集 。 
常见 的 深度 学 习 算 法 包括 : 受 限 波 尔 效 曼 机 (Restricted Boltzmann Machine, RBN), Deep 
Belief Networks (DBN) 、 卷 积 网 络 (Convolutional Network) , ME fE35X A 5) Zi tS 4h (Stacked 
Auto — encoders) 。 

11. 降低 维度 算法 

像 聚 类 算法 一 样 ， 降 低 维 度 算法 试图 分 析 数 据 的 内 在 结构 ， 不 过 降低 维度 算法 是 以 非 监 
督学 习 的 方式 试图 利用 较 少 的 信息 来 归纳 或 者 解释 数据 ， 这 类 算法 可 以 用 于 高 维 数据 的 可 视 
化 或 者 用 来 简化 数据 以 便 监督 式 学 习 使 用 。 和 常见 的 算法 包括 : 主 成 份 分 析 (Principle Compo- 
nent Analysis，PCA) 、 偏 最 小 二 乘 回归 (Partial Least Square Regression, PLS), Sammon I 
射 ， 多 维 尺 度 (Multi - Dimensional Scaling, MDS) 以 及 投影 追踪 (Projection Pursuit) 等 。 

12. 集成 算法 

集成 算法 用 一 些 相 对 较 弱 的 学 习 模型 独立 地 就 同样 的 样本 进行 训练 ， 然 后 把 结果 整合 起 
来 进行 整体 预测 。 集 成 算法 的 主要 难点 在 于 究 苋 集成 哪些 独立 的 较 弱 的 学 习 模型 以 及 如 何 把 
学 习 结 果 整 合 起 来 。 这 是 一 类 非常 强大 的 算法 ， 同 时 也 非常 流行 。 篆 见 的 算法 包括 : Boos- 
ting, Bootstrapped Aggregation ( Bagging ) , AdaBoost, HE Æ Z 4% (Stacked Generalization, 
Blending) , #6 BE $E HE HL ( Gradient Boosting Machine, GBM) 以 及 随机 森林 ( Random 
Forest) 。 


MLlib 的 简介 


EXE 22 MLlib | 


MLlib (Machine Learning lib) 是 Spark XJ% HR) PLas- E 2J FRSC, I eR A 
HI HORIS Eas. HB MLlib 是 Spark 的 四 大 子 框 架 之 一 ， 对 于 其 在 机 带 学 习 方 面 的 优 
势 ， 我 们 大 致 总 结 了 三 点 : 

(1) 由 于 Spark 本 和 号 的 设计 初 囊 束 是 基于 内 存 的 计算 框架 ， 而 这 一 点 非常 适合 机 带 学 习 
算法 迭代 计算 的 特点 ， 因 为 机 紫 学 习 的 算法 一 般 都 需要 经 过 多 次 迷 代 和 直到 获得 足够 小 的 误差 
时 才 会 停止 执行 ， 在 这 个 过 程 中 影响 最 大 的 就 是 IO 和 CPU 的 消耗 ， 与 MapReduce 这 样 的 
每 次 计算 都 需要 读 写 磁盘 的 计算 框架 相 比 ， 当 然 基于 内 存 计 算 的 Spark 无 疑 更 有 优势 。 

(2) MLlib 的 第 二 个 优势 就 是 它 的 易 用 性 和 部 署 方便 。MLlib 同样 提供 了 对 Scala 语言 、 
Java 语言 和 Python 语言 的 文 持 ,方便 用 户 使 用 自己 擅长 的 语言 进行 Spark 应 用 的 开发 。 同 时 
WAR CASA Hadoop 系统 时 ， 只 需要 部 署 Spark 系统 ，MLlib 就 可 以 直接 使 用 Hadoop 生 
态 系统 的 文件 系统 和 数据 库 作为 数据 的 输入 源 (如 HDFS、Hbase 等 )。 
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(3) MLlib 的 API 是 在 Spark 的 RDD 基础 上 建立 起 来 的 ， 作 为 Spark 的 子 系统 ， 它 完全 
可 以 与 Spark SQL, Spark Streaming, Spark GraphX 这 些 同样 基于 RDD 的 Spark 子 系统 进行 无 
颖 的 结合 。 例 如 MLlib 和 Spark Streaming 结合 则 可 以 构造 机 需 学 习 在 线 训 练 模 型 ， 有 具体 来 
说 ， 通 过 Spark Streaming 使 数据 不 断 地 流 进来 ， 然 后 使 用 MLib 中 的 算法 对 流 进来 的 数据 进 (Cs) 
行 训练 ， 这 对 于 一 些 复杂 的 实时 流 计 算 场 景 是 非常 有 价值 的 。 
MLlib 目前 支持 四 种 常见 的 机 器 学 习 问题 : 分 类 、 回 归 、 聚 类 和 协同 过 滤 ， 同 时 也 包括 
一 个 底层 的 梯度 下 降 优化 基础 算法 。 在 后 面 的 小 节 ， 我 们 会 具体 分 析 四 种 常见 的 机 器 学 习 


问题 。 


MLlib 的 架构 


从 图 9-3 中 可 以 看 出 ，MLlib 的 架构 主要 包含 三 个 部 分 : 
SVM 


Classification Regression 


Recommendation Tree 


MLlib matrix interface 


Resilient Distributed Dataset 


Spark & R.T. 


MLIlib vector interface 


Breeze 


Netlib-iava 


Java & R.T. 


T 


图 9-3 MLlib 的 架构 图 


l. 底层 基础 

MLlib 的 底层 基础 包括 Spark 的 运行 库 、 和 矩阵 库 和 回 量 库 等 。 具 体 来 讲 包 括 : 

(1) BLAS/LAPACK; BLAS， 全 称 Basic Linear Algebra Subprograms, ， 即 基础 线性 代数 子 
程序 库 ， 里 面 拥 有 大 量 已 经 编写 好 的 关于 线性 代数 运算 的 程序 。LAPACK， 其 名 为 Linear 
Algebra PACKage 的 缩写 ， 是 一 以 Fortran 9a fier BS, HIT RTT EH PS Se, LAPACK 
提供 了 丰富 的 工具 函 式 ， 可 用 于 诸如 解 多 元 线性 方程 式 、 线 性 系统 方程 组 的 最 小 平方 解 、 计 
算 特 征 癌 量 、 用 于 计算 矩阵 QR 分 解 的 Householder 转换 、 以 及 奇异 值 分 解 等 问题 。 

(2) Java&R. T. : 指 的 是 Java Runtime， 也 就 是 俗称 的 JVM 虚拟 机 。 

(3) Spark&R. T. : 指 的 是 Spark Runtime, 

(4) Resilinet Distributed Dataset: 就 是 RDD 了 ， 它 是 Spark 的 核心 抽象 。 

(5) Brezze: Brezze 是 伯克利 大 学 发 行 的 用 scala 编写 的 矩阵 计算 库 ，Breeze 库 是 scalanlp 
中 三 大 支柱 性 项 目 之 一 ，breeze 库 提 供 了 vector/matrix 的 实现 以 及 相应 计算 的 接口 。 

(6) Netlib - java; Netlib - java 相当 于 一 层 JNI 接口 ， 使 Breeze 可 以 调用 底层 的 BLAS/ 
LAPACK 库 。 

(7) MLlib vector interface: MLlib vector interface 是 MLlib rB Bj atr [n] ee HJ 2 HH 4 
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(8) MLlib matrix interface: 在 RDD 和 MLlib vector interface 之 上 封装 了 一 层 MLlib matrix 
interface ， 从 这 里 可 以 看 出 MLlib 的 vector 是 本 地 的 vector, rmi MLlib 的 matrix 既 可 以 是 本 地 
的 matrix 又 可 以 是 分 布 式 的 matrix。 

2. 算法 库 

包含 广义 线性 模型 、 推 荐 系统 、 聚 类 、 决 策 树 和 评估 的 算法 等 。 在 MLlib matrix interface 
之 上 的 就 是 Spark 机 天 学 习 算法 的 多 种 多 样 的 库 ， 有 具体 来 讲 ， 包 括 : 

(1) 左 侧 的 Classification， 是 用 来 做 分 类 的 ， 它 包括 LR 和 SVM 两 种 算法 ， 其 中 LR 
(Logistic Regression, E) 是 用 来 做 分 类 中 的 逻辑 回归 ， 同 样 我 们 可 以 看 到 非常 经 典 
的 分 类 算法 SVM (Support Vector Machine, LFF EHL) M Regression 是 用 来 做 回归 迭代 计 
iy, 包括 LR, RR (Ridge Regression, IM [n[IH) , Lasso (least absolute shrinkage and selec- 
tion operator) — fI TEE, Classification 和 Regress 的 底层 都 是 CLMs， 即 广义 线性 模型 ， 其 优 
化 算法 有 三 种 ， 即 SGD (Stochastic Gradient Descent ， 随 机 梯度 下 降 ) ADMM (Alternating 
Direction Method of Multipliers), L - BFGS (Limited - memory BFGS， 拟 牛顿 法 的 多 个 变种 
5 

(2) 在 MLlib 算法 库 中 ， 中 间 部 分 是 Reommendation ， 即 推荐 算法 ， 这 里 实现 的 是 ALS 
(Alternating Least Square) 算法 。 推 荐 算法 右 侧 是 聚 类 的 实现 算法 Kmeans， 在 聚 类 右 侧 是 决 
SRM (Decision Tree) 相关 的 内 容 ， 然 后 在 整个 染 构 图 的 最 上 面 是 MLlib 中 已 经 实现 的 对 算 
法 评价 的 方法 ， 例 如 AUC (Area Under roc Curve ), ROC (Receiver Operating Characteris- 
tic) , Precision - Recall 和 下 — measure, 

3. 实用 程序 

包括 数据 的 验证 器 、Label 的 二 元 和 多 元 的 分 析 嘎 、 多 种 数据 生成 器 和 数据 加 载 峰 等 ， 
这 些 内 容 在 MLlib 的 util 包 中 。 


MLlib 的 数据 类 型 


MLlib 支持 数据 存储 在 单个 机 带 的 本 地 疝 量 (local vectors) 和 本 地 和 矩阵 (local matirces ) 
中 ， 同 时 也 可 以 存储 在 由 一 个 或 多 个 RDD 支撑 实现 的 分 布 式 矩 了 泗 。 本 地 向 量 和 本 地 和 矩阵 是 
提供 公共 服务 接口 的 简单 数据 模型 。 底 层 的 线性 代数 操作 通过 Breeze 库 和 blas 库 来 实现 的 。 
在 MLlib 中 ， 监 督学 习 的 一 个 训练 实例 被 称 之 为 “标记 癌 量 (labeled point)”, 

1. 本 地 向 量 

一 个 本 地 回 量 由 从 0 开始 的 整 型 索引 数据 和 对 应 的 Double 型 值 数据 组 成 ， 它 存储 在 菏 
一 个 机 器 中 。MLlib 支持 两 种 类 型 的 本 地 向 量 : 密集 问 量 和 稀 玻 回 量 。 一 个 密集 回 量 通过 一 
个 double array 来 存储 癌 量 中 每 个 元 素 的 值 ， 而 一 个 稀 玖 问 量 通过 两 个 并 列 的 数组 indices 和 
values 来 分 别 存储 向 量 的 索引 值 和 向 量 的 元 素 。 比 如 ， 向 量 1.0,0.0,3.0) 可 以 用 密集 向 
量 [1.0,0.0,3.0] F, BAMA asl (3,[0,2],[1.0,3.0]) KER, Mibi] 
量 中 第 一 个 3 表示 问 量 长 度 。 

本 地 癌 量 的 基 类 是 Vector, MLilib 提供 了 两 个 实现 子 类 DenseVector 和 SparseVector。 官 
方 建议 通过 Vectors 中 实现 的 工厂 方法 来 创建 本 地 回 量 。 本 地 回 量 的 实例 对 象 的 创建 如 下 代 
fi BIZ o 


import org. apache. spark. mllib. linalg. | Vector, Vectors | 


// Create a dense vector( 1. 0,0. 0,3. 0). 

val dv; Vector = Vectors. dense( 1. 0,0. 0,3. 0) 

// Create a sparse vector( 1. 0,0. 0,3. 0) by specifying its indices and values corresponding to//nonzero 
entries. 

val svl :Vector = Vectors. sparse(3 , Array(0,2) , Array(1. 0,3. 0)) 

// Create a sparse vector( 1. 0,0. 0,3. 0) by specifying its nonzero entries. 

val sv2 :Vector = Vectors. sparse(3,8eq( (0,1. 0),(2,3.0))) 


在 这 里 需要 注意 的 是 : Scala 语言 默认 引入 的 是 scala. collection. immutable. Vector, 为 了 
使 用 MLlib 的 Vector， 你 必须 显示 引入 org. apache. spark. mllib. linalg. Vector, 

2. 标记 向 量 

一 个 标记 回 量 ， 由 一 个 本 地 加 量 (BSE Te ea Pt [ed at) 和 一 个 标签 (label/response) 
组 成 。 在 MLlib 中 ， 监 督学 习 算法 会 使 用 标记 癌 量 。 在 标记 向 量 中 我 们 使 用 一 个 double 类 型 
来 存储 一 个 标签 ， 因 此 我 们 可 以 在 回归 和 分 类 中 使 用 到 标记 向 量 。 对 二 元 分 类 来 说 ,一 个 标 
签 或 为 0 (file) 或 为 1 CIEIRI) ; 对 多 元 分 类 来 说 ， 标 签 应 该 是 从 0 开始 的 索引 ， 如 0， 
2 este: 


, 


含有 标签 的 标记 向 量 通过 case class LabeledPoint 来 表示 ， 标 记 向 量 的 实例 化 如 以 下 代码 
所 示 。 


import org. apache. spark. mllib. linalg. Vectors 
import org. apache. spark. mllib. regression. LabeledPoint 


// Create a labeled point with a positive label and a dense feature vector. 


val pos = LabeledPoint( 1.0, Vectors. dense( 1. 0,0. 0,3. 0)) 


// Create a labeled point with a negative label and a sparse feature vector. 


val neg = LabeledPoint(0. 0, Vectors. sparse(3 , Array (0,2) , Array(1. 0,3. 0))) 


3. 稀疏 数据 

EKIZA, FS eR TE LB]. MLlib 可 以 读 取 以 LIBSVM 格式 存储 的 训练 实例 ， 
LIBSVM 格式 是 LIBSVM 和 LIBLINEAR 使 用 的 默认 格式 ,这 是 一 种 文本 格式 ， 文 件 中 每 行 代 
Ber NE EY BILE REIR] SEG READ: 


label indexl:valuel index2:value2 --- 


索引 是 从 1 开始 并 且 递 增 。 加 载 完 成 后 ， 索 引 被 转换 为 从 0 开始 。 
通过 MLUtils. loadLibSVMFile 读 取 训练 实例 并 以 LIBSVM 格式 存储 ， 如 下 面 代码 : 


import org. apache. spark. mllib. regression. LabeledPoint 
import org. apache. spark. mllib. util. MLUtils 
import org. apache. spark. rdd. RDD 


val examples; RDD| LabeledPoint | = MLUtils. loadLibSVMFile( sc , " data/mllib/sample_ 
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libsvm_data. txt" ) 


4. 本 地 和 矩阵 
一 个 本 地 矩阵 由 整 型 的 行列 索引 号 和 对 应 的 double 型 值 数 据 组 成 ， 存 储 在 某 一 个 机 天 
P, MLlib 支持 密集 和 矩阵， 密集 矩阵 的 值 数据 以 列 优先 的 方式 存储 在 一 个 double 数组 中 。 比 
如 下 面 的 矩阵 : 
1.0 2.0 
3.0 T 


5.0 6.0 
其 存储 方式 是 一 个 一 维 数组 [1.0,3.0,5.0,2.0,4.0,6. 0] 和 和 矩阵 的 行列 大 小 (3,2)。 
本 地 矩阵 的 基 类 是 Matrix ， 目 前 官方 提供 了 一 个 实现 DenseMatrix， 建 议 通过 Matrices 中 实 
现 的 工厂 方法 来 创建 本 地 矩阵， 本 地 和 矩阵 的 创建 如 以 下 代码 所 示 。 


import org. apache. spark. mllib. linalg. | Matrix, Matrices | 


// Create a dense matrix( (1. 0,2.0),(3.0,4.0),(5.0,6.0)) 
val dm; Matrix = Matrices. dense(3,2 , Array(1. 0,3. 0,5. 0,2. 0,4. 0,6.0)) 


5. 分 布 式 矩阵 

一 个 分 布 式 矩阵 由 long 型 行列 索引 号 和 对 应 的 double 型 值 数 据 组 成 ， 它 分 布 式 存储 在 
一 个 或 多 个 RDD 中 。 对 于 数据 量 大 的 分 布 式 的 矩阵 来 说 ， 选 择 正 确 的 存储 格式 非常 重要 。 
将 一 个 分 布 式 矩 阵 转 换 为 男 一 种 不 同 格式 需要 全 局 的 Shuffle 操作 ， 这 样 做 代价 很 高 。 目 前 ， 
官方 实现 了 三 类 分 布 式 矩阵 存储 格式 ， 最 基本 的 类 型 是 RowMatrix， 一 个 RowMatrix 是 一 个 
面向 行 的 分 布 式 和 矩阵， 其 行 索引 是 没有 具体 含义 的 。 比 如 一 个 特征 向 量 集合 ， 通 过 一 个 
RDD 来 代表 所 有 的 行 ， 每 一 行 就 是 一 个 本 地 癌 量 。 对 于 RowMatrix， 我 们 假定 其 列 数量 并 不 
大 ， 这 样 一 个 本 地 癌 量 可 以 恰当 地 与 驱动 结 点 (Driver) 交换 信息 ， 并 且 能 够 在 某 一 结 点 中 
存储 和 操作 。IndexedRowMatrix 与 RowMatrix 相似 ， 但 有 行 索引 ， 可 以 用 来 识别 行 和 进行 join 
操作 。 而 CoordinateMatrix 是 一 个 以 坐标 格式 (coordinate list, COO) 进行 存储 的 分 布 式 和 矩 
阵 ， 其 实体 集合 ( 它 的 值 数据 ) 也 是 一 个 RDD。 

需要 注意 的 是 : 因为 我 们 需要 缓存 矩阵 数据 的 大 小 ， 所 以 分 布 式 矩阵 的 底层 RDD 必须 
是 确定 的 (deterministic) 。 通 党 来 说 ， 使 用 非 确定 的 RDD (non - deterministic RDDs) 会 导 
致 错误 。 

(1) 面向 行 的 分 布 式 矩 阵 (RowMatrix) : 一 个 RowMatrix 是 一 个 面向 行 的 分 布 式 和 矩阵 ， 
其 行 索 引 是 没有 具体 含义 的 。 比 如 一 个 特征 问 量 集合 ， 通 过 一 个 RDD 来 代表 所 有 的 行 ， 
一 行 就 是 一 个 本 地 和 向量。 既然 每 一 行 由 一 个 本 地 疝 量 表示 ， 所 以 其 列 数 就 被 整 型 数据 大 小 所 
限制 ， 其 实在 实际 环境 下 列 数 是 一 个 很 小 的 数值 。 

一 个 RowMatrix 可 从 一 个 RDD[ vector] 实例 创建 。 然 后 我 们 可 以 计算 行列 来 统计 数据 信 
A. DA FÆR RowMatrix 实例 的 示例 代码 : 


import org. apache. spark. mllib. linalg. Vector 
import org. apache. spark. mllib. linalg. distributed. RowMatrix 


val rows: RDD| Vector] = ++- // an RDD of local vectors 
// Create aRowMatrix from an RDD| Vector ]. 
val mat ; RowMatrix = new RowMatrix( rows ) > 


// Get its size. 
val m = mat. numRows( ) 


val n = mat. numCols( ) 


(2) ÍTRIV (IndexedRowMatrix) : IndexedRowMatrix Ej RowMatrix 相似 ， 但 其 行 索 
引 具 有 特定 含义 ，IndexedRowMatrix 本 质 上 是 一 个 含有 行 索引 信息 的 数据 集合 (an RDD of 
indexed rows) 。 每 一 行 由 long 型 索引 和 一 个 本 地 回 量 组 成 。 一 个 IndexedRowMatrix 可 从 一 个 
RDD[ IndexedRow | 实例 创建 ， 这 里 的 IndexedRow 是 (Long, Vector) AY EAE 28, ABR 
IndexedRowMatrix 中 的 行 索 引信 息 就 变 成 一 个 RowMatrix; IndexedRowMatrix 实例 的 创建 如 以 
下 示例 代码 所 示 。 


import org. apache. spark. mllib. linalg. distributed. | IndexedRow , IndexedRowMatrix , RowMatrix | 


val rows: RDD[ IndexedRow | = ++- // an RDD of indexed rows 
// Create anIndexedRowMatrix from an RDD[ IndexedRow |. 


val mat : IndexedRowMatrix = new IndexedRowMatrix( rows ) 


// Get its size. 
val m = mat. numRows( ) 


val n = mat. numCols( ) 


// Drop its row indices. 


valrowMat : RowMatrix = mat. toRowMatrix( ) 


(3) 坐标 矩阵 : 一 个 CoordinateMatrix 是 一 个 分 布 式 矩阵 ， 其 实体 集合 〈 数 据 项 ) 也 是 
用 一 个 RDD 存储 ， 每 一 个 实体 是 一 个 元 组 〈i:Long,j:Long,value:Double) ， 其 中 i 代 表 行 索 
引 ，j 代表 列 索引 ，value 代表 实体 的 值 。 只 有 当 和 矩阵 的 行 和 列 都 很 大 并 日 和 窍 阵 很 稀 玖 时 才 使 
用 CoordinateMatrix。 

一 个 CoordinateMatri 可 从 一 个 RDD | MatrixEntry ] 实例 创建 ， 这 里 的 MatrixEntry 是 
(Long,Long,Double) 的 封装 类 ， 通 过 调用 tolndexedRowMatrix ( ) 方 法 可 以 将 一 个 Coordinate- 
Matrix 转换 为 一 个 IndexedRowMatrix. (但 其 行 是 稿 芷 的 ) 。 目 前 和 暂 不 支持 对 CoordinateMatri 的 
其 他 计算 操作 。CoordinateMatrix 实例 的 创建 如 以 下 代码 所 示 。 


val entries; RDD| MatrixEntry ] =… // an RDD of matrix entries 


// Create aCoordinateMatrix from an RDD[ MatrixEntry |. 


val mat ; CoordinateMatrix = new CoordinateMatrix( entries ) 


// Get its size. 


val m = mat. numRows( ) 
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val n = mat. numCols( ) 


// Convert it to anIndexRowMatrix whose rows are sparse vectors. 


valindexedRowMatrix = mat. toIndexedRow Matrix ( ) 


JI MLiib 的 算法 


1. 分 类 
分 类 是 一 个 监督 学 习 问 题 。 分 类 是 一 种 基于 训练 样本 数据 〈 这 些 数据 都 已 经 被 由 标签 ) 


区 分 另外 的 样本 数据 标签 的 过 程 ， 即 另外 的 样本 数据 应 该 如 何 贴标签 的 问题 。 分 类 问题 通过 
对 被 贴 过 标签 的 样本 数据 运行 一 个 学 习 算法 ， 然 后 返回 一 个 训练 好 的 分 类 模型 ， 应 用 这 个 分 
类 模型 ， 能 对 男 外 未 被 贴标签 的 数据 进行 归 类 。 目 前 分 类 问题 的 算法 常见 的 应 用 场景 有 客户 
流失 预测 、 精 准 营 销 、 客 户 获 取 、 个 性 偏好 等 。MLlib 目前 文 持 分 类 学 习 问 题 的 算法 有 : 2 
辑 回归 、 线 性 文 持 回 量 机 (SVMs) 、 朴 素 贝 叶 斯 和 决策 树 。 

下 面 我 们 使 用 朴素 贝 叶 斯 算法 作为 案例 来 看 下 关于 分 类 问题 在 MLlib 中 的 实现 。 

朴 系 贝 叶 斯 是 一 种 简单 的 多 类 分 类 方法 ， 它 假定 分 类 特征 之 间 两 两 不 相关 。 朴 闲 贝 叶 斯 
在 训练 上 非常 有 效率 ， 对 训练 集中 的 每 一 记录 ， 它 计算 每 一 特征 在 类 标签 上 的 条 件 概 率 分 
布 ， 然 后 运用 贝 叶 斯 理论 计算 某 一 观察 在 类 标签 的 条 件 概 率 分 布 并 用 之 来 预测 。MLlib 支持 
多 模 朴 素 贝 叶 斯 (multinomial naive Bayes) ， 一 种 主要 用 于 文档 分 类 的 算法 。 用 于 此 场景 时 ， 
每 个 观察 者 是 一 个 文档 ， 每 个 特征 代表 一 个 单词 ， 特 征 的 值 是 单词 的 频率 。 特 征 值 必须 是 非 
零 的 单词 出 现 频 率 。 附 加 的 平滑 处 理 可 通过 设置 参数 入 (默认 值 为 1.0) 来 完成 。 对 于 文档 
分 类 ， 输 入 特征 向 量 通常 是 稀 玖 问 量 ， 并 且 能 够 获得 稀 玖 输入 的 特有 优势 。 由 于 熟练 数据 只 
是 用 一 次 ， 因 此 没有 必要 缓冲 它 。 

下 面 代 码 片 段 演示 了 如 何 加 载 数据 集 ， 运 用 算法 对 象 的 静态 方法 执行 训练 算法 ， 以 及 运 
用 模型 预测 来 计算 训练 误差 。NaiveBayes 实现 了 多 模 朴 素 贝 叶 斯 算法 。 它 接收 一 个 Labeled- 
Point 格式 的 RDD 和 一 个 可 选 的 平滑 参数 lambda 作为 输入 ， 输 出 一 个 用 于 评估 和 预测 的 
NaiveBayesModel 模型 。 


import org. apache. spark. mllib. classification. | NaiveBayes , NaiveBayesModel | 
import org. apache. spark. mllib. linalg. Vectors 
import org. apache. spark. mllib. regression. LabeledPoint 


val data = sc. textFile( " data/mllib/sample, naive, bayes, data. txt" ) 
valparsedData = data. map | line => 
val parts = line. split(' ,' ) 
LabeledPoint( parts (0) . toDouble, Vectors. dense( parts( 1). split(" ). map(. . toDouble) ) ) 
| 
// 切 分 训练 数据 和 测试 数据 ,其 中 60% 为 训练 数据 ,40% 为 测试 数据 
val splits = parsedData. randomSplit( Array(0.6 ,0.4) ,seed =11L) 


val training = splits( 0) 
val test = splits( 1) 


val model = NaiveBayes. train( training, lambda = 1. 0) 


valpredictionAndLabel = test. map( p => (model. predict( p. features) , p. label) ) S 
val accuracy 21. 0 * predictionAndLabel. filter(x 2» x. 1 ==x. 2). count( ) / test. count( ) 


/保存 并 加 载 数据 模型 
model. save( sc , " myModelPath" ) 
valsameModel = NaiveBayesModel. load( sc , " myModelPath" ) 


2. 回归 

线性 回归 是 为 一 个 经 典 的 监督 学 习 问 题 。 在 这 个 问题 中 ， 每 个 个 体 都 有 一 个 与 之 相关 联 
的 实数 标签 ， 并 且 我 们 希望 在 给 出 用 于 表示 这 些 实体 的 数值 特征 后 ， 所 预测 出 的 标签 值 可 以 
尽 可 能 接近 实际 值 。MLlib 目前 支持 回归 算法 有 : 线性 回归 、 岭 回归 、Lasso 和 决策 树 。 

下 面 我 们 使 用 随机 森林 算法 作为 案例 来 看 下 关于 回归 问题 在 MLlib 中 的 实现 。 

随机 森林 (Random Forest) ， 顾 名 思 义 ， 是 用 随机 的 方式 建立 一 个 条 林 ， 和 森林 里 面 有 很 
多 的 决策 树 组 成 ， 随 机 森林 的 每 一 棵 决策 树 之 间 是 没有 关联 的 。 随 机 森林 可 以 看 作 是 决策 树 
的 复数 集合 ， 在 分 类 和 回归 应 用 中 是 最 为 成 功 的 机 融 学 习 模型 之 一 。 随 机 森林 整合 了 许多 决 
策 树 以 降低 过 度 拟 合 的 风险 ， 并 且 同 决策 树 算法 一 样 ， 随 机 森林 在 处 理 类 别 特征 时 不 需要 进 
行 特征 自 适 应 (feature scaling) ， 并 能 把 这 一 特点 延伸 到 多 元 分 类 问题 上 。 除 此 以 外 ， 随 机 
森林 还 能 应 对 非 线 性 问题 以 及 交互 变量 。MLlib 中 的 随机 森林 文 持 二 元 和 多 类 分 类 ， 文 持 连 
续 特征 和 分 类 特征 的 回归 ， 使 用 随机 森林 可 以 按照 现成 的 决策 树 实 现 方 式 。 

随机 和 森林 对 于 一 系列 决策 树 采 用 区 分 训练 的 方式 ， 因 此 训练 过 程 可 以 并 行进 行 。 这 个 算 
法 在 训练 过 程 中 注入 了 随机 性 特征 因此 每 棵 决策 树 都 会 有 小 量 差异 ， 随 机 森林 算法 将 每 棵 树 
的 预测 结果 进行 整合 来 降低 预测 结果 的 方差 值 ， 以 此 来 提高 测试 数据 的 正确 率 。 

下 面 代码 片段 演示 了 如 何 加 载 LIBSVM 格式 的 数据 ， 将 其 解析 为 LabeledPoint 格式 的 
RDD， 然 后 采用 随机 森林 来 进行 回归 ， 我 们 通过 计算 均 方 误差 (MSE) 来 评 佑 拟 合 度 。 


import org. apache. spark. mllib. tree. RandomForest 
import org. apache. spark. mllib. tree. model. RandomForestModel 


import org. apache. spark. mllib. util. MLUtils 


/加 载 数据 文件 

val data = MLUtils. loadLibSVMFile( sc , " data/mllib/sample libsvm, data. txt" ) 
// Split the data into training and test sets( 3096 held out for testing) 

val splits = data. randomSplit ( Array (0. 7,0. 3) ) 

val (trainingData , testData) = ( splits (0) ,splits(1) ) 


/训练 随机 森林 模型 
// Empty categoricalFeaturesInfo indicates all features are continuous. 
valnumClasses = 2 


val categoricalFeaturesInfo = Map| Int, Int | ( ) 
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valnumTrees =3 // Use more in practice. 

val featureSubsetStrategy = " auto" // Let the algorithm choose. 
val impurity =" variance" 

valmaxDepth = 4 


valmaxBins - 32 


val model = RandomForest. trainRegressor( trainingData , categoricalFeaturesInfo , 


numTrees , featureSubsetStrategy , impurity , maxDepth , maxBins ) 


/评估 数据 模型 
val labelsAndPredictions = testData. map | point 2» 
val prediction = model. predict ( point. features ) 


( point. label , prediction) 


| 
valtestMSE = labelsAndPredictions. map| case(v,p) => math. pow( (v - p) ,2) |. mean( ) 
println( " Test Mean Squared Error =" + test MSE) 


println ( " Learned regression forest model; \n" + model. toDebugString ) 


// Save and load model 
model. save( sc , " myModelPath" ) 
valsameModel = RandomForestModel. load( sc , " myModelPath" ) 


3. BA 

RK, Cluster analysis, ATW RAVE NIRA, ADE Se: 将 一 组 目 样 本 数据 划分 
Ka TE. BERR ZAI SAY BEA, Se BD A CS) A. FREI 
是 机 器 学 习 (或 者 说 是 数据 挖掘 更 合适 ) 中 重要 的 一 部 分 ， 除 了 最 为 简单 的 K - Means RK 
算法 外 ， 较 常见 的 还 有 : 层次 法 (CURE, CHAMELEON 等 ) 、 网 格 算法 (STING, Wave- 
Cluster 等 ) 等 。 

聚 类 是 一 个 非 监 督学 习 问 题 ， 所 谓 聚 类 问题 ， 就 是 给 定 一 个 元 素 集 合 D， 其 中 每 个 元 
KHA n 个 可 观察 属性 ， 使 用 某 种 算法 将 D 划分 成 上 个 子 集 ， 要 求 每 个 子 集 内 部 的 元 素 
之 间 相 异 度 尽 可 能 低 ， 而 不 同 子 集 的 元 素 相 异 度 尽 可 能 高 。 其 中 每 个 子 集 叫 作 一 个 复 。 
与 分 类 不 同 ， 分 类 是 监督 和 学习， 要 求 分 类 前 明确 各 个 类 别 ， 并 断言 每 个 元 素 映射 到 一 个 
类 别 ， 而 聚 类 是 观察 式 学 习 ， 在 聚 类 前 可 以 不 知道 类 别 甚至 不 给 定 类 别 数量 ， 是 非 监 督 
学 习 的 一 种 。 目 前 聚 类 广泛 应 用 于 统计 和 学、 生物 学 、 数 据 库 技术 和 市 场 营 销 等 领域 ， 相 
应 的 算法 也 非常 的 多 。 

MLlib 目前 已 经 支持 的 聚 类 算法 是 K - Means 聚 类 算法 ，K -Means 属于 非 监 督学 习 ， 最 
大 的 特别 和 优势 在 于 模型 的 建立 不 需要 训练 数据 。 在 日 常 工作 中 ， 很 多 情况 下 没有 办 法 事先 
获取 到 有 效 的 训练 数据 ， 这 时 采用 K - Means 是 一 个 不 错 的 选择 。 但 K - Means 需要 预先 设 
置 有 多 少 个 篮 类 CK 值 )， 这 对 于 像 计算 某 省 份 全 部 电信 用 户 的 交往 圈 这 样 的 场景 就 完全 的 
没 办 法 用 KK - Means 进行 。 对 于 可 以 确定 K 值 不 会 太 大 但 不 明确 精确 的 值 的 场景 ， 可 以 进 
行 迭代 运算 ， 然 后 找 出 评估 最 小 时 所 对 应 的 K 值 ， 这 个 值 往往 能 较 好 地 描述 有 多 少 个 簇 类 。 
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MLlib 的 实现 中 包含 一 个 k-means ++ 方 法 的 并 行 化 变 体 kmeans I, RIA RIPE ERE 
次 数 达到 设置 的 最 大 友 代 次 数值 ， 或 者 是 某 次 友 代 计算 后 结果 有 所 收 公 。 该 算法 在 MLlib 里 
面 的 实现 有 如 下 的 参数 : 

ek: 所 需 的 类 艇 的 个 数 。 

€ maxlterations: 最 大 的 迭代 次 数 。 

e initializationMode; 这 个 参数 决定 了 是 用 随机 初始 化 还 是 通过 - means 工 进行 初始 化 。 

e runs; 跑 k — means 算法 的 次 数 (k - mean 算法 不 能 保证 能 找 出 最 优 解 ， 如 果 在 给 定 的 

数据 集 上 运行 多 次 ， 算 法 将 会 返回 最 佳 的 结果 ) 。 

è initializiationSteps: jE J k -means 开 算法 的 步 数 。 

e epsilon; 决定 了 判断 k — means 是 否 收敛 的 距离 阀 值 。 

下 面 我 们 使 用 KMeans 算法 作为 案例 来 看 下 关于 回归 问题 在 MLlib 中 的 实现 。 在 下 面 的 
例子 中 ， 在 载 和 人 和 解析 数据 之 后 ， 我 们 使 用 KMeans 对 象 来 将 数据 聚 类 到 两 个 类 得 当中 。 所 
需 的 类 簇 个 数 会 被 传递 到 算法 中 。 然 后 我 们 将 计算 集 内 均 方差 总 和 (WSSSE). 你 可 以 通过 
增加 类 簇 的 个 数 k 来 减 小 误差 。 实际 上 ， 最 优 的 类 簇 数 通常 是 1， 因 为 这 一 点 通常 是 WSSSE 
图 中 的 “低谷 点 o 


import org. apache. spark. mllib. clustering. KMeans 


import org. apache. spark. mllib. linalg. Vectors 


// WRZE 
val data = sc. textFile( " data/mllib/kmeans, data. txt" ) 


valparsedData = data. map( s => Vectors. dense( s. split(" ). map(_. toDouble) ) ). cache( ) 


// 将 数据 集聚 类 ,2 个 类 ,20 次 迭代 ,形成 数据 模型 
valnumClusters = 2 
valnumlterations = 20 


val clusters = KMeans. train( parsedData , numClusters , numlterations ) 


// 使 用 误差 平方 之 和 来 评估 数据 模型 
val WSSSE = clusters. computeCost( parsedData ) 
println( " Within Set Sum of Squared Errors =" + WSSSE) 


4. 协同 过 滤 

协同 过 滤 和 党 被 应 用 于 推荐 系统 ， 这 些 技术 旨 在 补充 用 户 -商品 关联 和 矩 阵 中 所 缺失 的 部 
分 。 基 于 协同 过 滤 的 推荐 可 以 分 为 三 类 : 

(1) 基于 用 户 的 推荐 (通过 共同 口味 与 偏好 找 相 似 邻 居 用 户 ，K - 邻居 算法 ， 你 朋友 喜 
欢 ， 你 也 可 能 喜欢 ); 

(2) 基于 项 目的 推荐 〈 发 现 物品 之 间 的 相似 度 ， 推 荐 类 似 的 物品 ， 你 喜欢 物品 A, C 
与 A 相似 ， 可 能 也 喜欢 C) ; 

(3) 基于 模型 的 推荐 (基于 样本 的 用 户 喜 好 信息 构造 一 个 推荐 模型 ， 然 后 根据 实时 的 
用 户 喜 好 信息 预测 推荐 ) 。 


e 
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MLlib 当前 支持 基于 模型 的 协同 过 滤 推 荐 ， 其 中 用 户 和 商品 通过 一 小 组 隐语 义 因子 ( 如 
» ir, WK, ME, 分 至 等 ) 进行 表达 ， 并 且 这 些 因子 也 用 于 预测 缺失 的 元 素 。 为 


ii、 文 些 隐 性 语义 因子 。 在 MLlib 中 的 实现 有 
如 下 的 参数 : 


numBlocks: 是 用 于 并 行 化 计算 的 分 块 个 数 〈 设 置 为 -1 为 自动 配置 ) 。 

rank; 是 模型 中 隐语 义 因子 的 个 数 。 

iterations; 是 迭代 的 次 数 。 

lambda: 是 ALS 的 正则 化 参数 。 

implicitPrefs: 决定 了 是 用 显 性 反馈 ALS 的 版 本 还 wee 隐 性 反馈 数据 集 的 版 本 。 
alpha: 是 一 个 针对 于 隐 性 反馈 ALS 版 本 的 参数 ， 这 个 参数 决定 了 偏好 行为 强度 的 基准 。 
ium. mum a T 


子 中 ， 首 先 加 载 评级 数据 ， 每 行 由 一 个 用 户 ， 一 个 产品 和 一 个 评级 组 成 。 然 后 假定 评级 信息 
是 显 性 的 ， 使 用 默认 的 ALS. train( ) 方 法 来 训练 。 最 后 计算 评级 预测 的 均 方 误差 来 评估 推荐 


import org. apache. spark. mllib. recommendation. ALS 
import org. apache. spark. mllib. recommendation. MatrixFactorization Model 


import org. apache. spark. mllib. recommendation. Rating 


/ RRR 

val data = sc. textFile( " data/mllib/als/test. data" ) 

val ratings = data. map(_. split(',') match | case Array( user, item rate) => 
Rating( user. toInt , item. toInt , rate. toDouble ) 


|) 


// 使 用 最 小 二 乘法 (ALS) 算 法 建立 评估 模型 
val rank = 10 
valnumlterations = 20 


val model = ALS. train( ratings , rank , numlterations ,0. 01 ) 


/评估 数据 模型 

valusersProducts = ratings. map | Case Rating( user, product rale) => 
( user , product ) 

| 

val predictions = 
model. predict( usersProducts ). map | case Rating( user, product, rate) => 

( (user, product) , rate ) 

| 

valratesAndPreds = ratings. map | case Rating( user, product, rate) => 
( (user, product ) , rate ) 

| . join( predictions) 


val MSE = ratesAndPreds. map | case( ( user, product) , (rl ,12) ) => 


val err = (rl - 12) 
err * eir 
I. mean( ) 


printIn ( " Mean Squared Error =" + MSE) 


// Save and load model 
model. save( sc , " myModelPath" ) 


valsameModel = MatrixFactorizationModel. load( sc , " myModelPath" ) 
If the rating matrix is derived from another source of information( e. g. ,it is inferred from other signals) , 


you can use thetrainImplicit method to get better results. 


val alpha 20. 01 


val model = ALS. trainImplicit( ratings , rank , numlterations , alpha ) 
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1. K - Means 算法 解析 

在 前 面 介绍 MLlib 的 算法 时 ， 我 们 已 经 简单 介绍 过 K - Means 算法 ，K - Means 是 最 为 经 
典 的 基于 划分 的 聚 类 方法 ， 是 十 大 经 典 数据 挖掘 算法 之 一 。 给 定数 据 样本 集 Sample 和 应 该 
划分 的 类 数 K， 对 样本 数据 Sample 进行 聚 类 ， 最 终 形 成 下 个 聚 类 ， 其 相似 的 度量 是 某 条 数 
据 与 中 心 点 的 “距离 ”( 距离 可 分 为 绝对 值 距离 、 欧 式 距 离 、 闵 可 夫 斯 基 中 离 、 切 比 雪夫 中 
离 和 马 氏 距离 。 这 里 所 说 的 距离 是 欧式 距离 ， 欧 氏 距 离 (Euclidean distance) 也 称 欧 几 里 得 
距离 ， 它 是 一 个 通常 采用 的 距离 定义 ， 它 是 在 m 维 空 间 中 两 个 点 之 间 的 真实 距离 ) 。 

对 于 一 Means 算法 ， 它 的 执行 过 程 可 分 为 以 下 4 步 : 

(1) 选择 个 点 作为 初始 中 心 ; 

(2) 将 每 个 点 指派 到 最 近 的 中 心 ， 形 成 人 个 复 (RŽ); 

(3) 重新 计算 每 个 艇 的 中 心 ; 

(4) 重复 (2) ~ (3) ， 直 至 中 心 不 再 发 生变 化 。 

2. K - Means 算法 实例 操作 

(1) 数据 准备 。 在 kmeans, data. txt 文件 中 ， 我 们 准备 了 以 下 数据 : 


0.0 0.0 0.0 
0.10.10.1 
0.2 0.2 0.2 
9.0 9.0 9.0 
9.19.19.1 
9,219: 2-972 
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(2) 实现 思路 如 下 。 

1) 屏蔽 不 必要 的 日 志 显 示 在 终端 上 。 

2) 设置 运行 环境 。 

3) 装载 kmeans_data. txt 数据 集 。 

4) 将 数据 集聚 类 〈 聚 成 两 个 类 ) ， 进 行 20 次 迭代 计算 ， 形 成 数据 模型 。 
5) 在 控制 台 打 印 数据 模型 的 两 个 中 心 点 。 
6) 使 用 误差 平方 之 和 来 评估 数据 模型 。 
7) 使 用 模型 测试 单 点 数据 。 

8) 交叉 评估 1， 只 返回 结 

9) 交叉 评估 2， 返 回 数据 集 和 结 

(3) 代码 实例 如 下 。 


import org. apache. log4j. | Level , Logger } 


import org. apache. spark. | SparkConf , SparkContext | 
import org. apache. spark. mllib. clustering. KMeans 
import org. apache. spark. mllib. linalg. Vectors 


objectKmeans | 
def main( args; Array| String] ) | 
// BE il A DERI Hi Sb AN EZ mE 
Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 


Logger. getLogger( " org. eclipse. jetty. server" ). setLevel( Level. OFF) 


// 设 置 运行 环境 
val conf = newSparkConf( ). setAppName( " Kmeans" ). setMaster( "local[ 4 |" ) 


val sc = newSparkContext ( conf) 


// RRA RE 
val data = sc. textFile( " /root/ Downloads/ kmeans_data. txt" ,1 ) 


valparsedData = data. map( s => Vectors. dense( s. split(" ). map(_. toDouble) ) ) 


// 将 数据 集聚 类 ,2 个 类 ,20 次 迭代 ,形成 数据 模型 


valnumClusters = 2 


valnumlterations = 20 


val model = KMeans. train( parsedData , numClusters , numlterations ) 


// 数 据 模 型 的 中 心 点 
println( " Cluster centers:" ) 


for( c «- model. clusterCenters ) | 


println ( " * c. toString) 
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// 使 用 误差 平方 之 和 来 评估 数据 模型 
val cost = model. computeCost( parsedData ) 


println( " Within Set Sum of Squared Errors =" + cost) 


// 使 用 模型 测试 单 点 数据 

println( " Vectors 0. 2 0. 2 0. 2 is belongs to clusters:" + model. predict( Vectors. dense( "0.2 0. 2 
0. 2". split("). map(. . toDouble) ) ) ) 

println( " Vectors 0. 25 0. 25 0. 25 is belongs to clusters;" + model. predict ( Vectors. dense ( " 0. 25 
0. 25 0. 25" . split(" ). map(. . toDouble) ) ) ) 

println( " Vectors 8 8 8 is belongs to clusters;" + model. predict( Vectors. dense( " 8 8 8". split(") 
. map(. . toDouble) ) ) ) 


// 交 叉 评 佑 1, 只 返回 结 
val testdata = data. map( s => Vectors. dense( s. split(" ). map(_. toDouble) ) ) 
val result] = model. predict( testdata ) 


result]. saveAsTextFile( " /root/Downloads/ machine - learning/result1" ) 


// 交 叉 评 佑 2, 返 回 数据 集 和 结 
val result2 = data. map | 
line => 
vallinevectore = Vectors. dense( line. split(" ). map(_. toDouble) ) 
val prediction = model. predict ( linevectore ) 


"ow 


line + + prediction 


|. saveAsTextFile( " /root/ Downloads/ machine — learning/result2" ) 


sc. stop( ) 


| 

(4) 运行 结 

1) 加 载 进来 的 数据 首先 会 把 每 行 向 量化 赋值 给 parsedData， 然 后 会 调用 Kmeans 类 的 
train( ) 方 法 把 向 量化 数据 和 迭代 20 此 并 分 成 2 PER, RAE iil BT EDR y A 
心 点 〈 两 个 中 心 点 都 是 向 量 )， 从 图 9-4 的 运行 结果 可 以 看 到 中 心 点 分 别 为 向 量 
[0. 10000000000000002 , 0. 10000000000000002 , 0. 10000000000000002 ] 和 向 量 「9.1, 9. 1, 
9.1], 

调用 model. computeCost( parsedData ) 对 形成 的 数据 模型 model 使 用 误差 平方 之 和 来 评估 ， 
可 以 看 到 评估 结果 的 值 是 0. 11999999999994547 。 

2) 使 用 数据 模型 进行 单 点 数据 的 测试 ， 这 里 的 单 点 数据 指 的 是 一 个 向 量 ， 这 里 提供 了 
三 个 单 点 向 量 (向 量 0.2,0.2,0.2], 向量 [ 0.25,0.25,0.25], 向量 [8,8,8]) ， 分 别 
对 其 进行 测试 。 

图 9-5 是 运行 结果 的 截图 。 这 里 需要 注意 的 是 由 于 每 次 求 出 中 心 点 并 打印 在 控制 台 上 
时 显示 的 顺序 不 一 样 〈 妆 然 聚 类 中 心 点 的 索引 是 从 0 开始 递增 的 ) ， 所 以 接 下 来 显示 单 点 数 
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15/05/29 21:48:07 INFO FileInputFormat:Total input paths to process:l 
15/05/29 21:48:07 INFO deprecation: mapred.tip.id is deprecated. Instead, use mapreduce. task. id 
15/05/29 21:48:07 INFO deprecation: mapred. task. id is deprecated . Instead, use mapreduce. task. attempt. id 
15/05/29 21:48:07 INFO deprecation: mapred. task. is. map is deprecated. Instead, use mapreduce. task. ismap 
15/05/29 21:48:07 INFO deprecation: mapred. task. partition is deprecated. Instead, use mapreduce. task partition 
15/05/29 21:48:07 INFO deprecation: mapred. job. id is deprecated. Instead, use mapreduce. job. id 
15/05/29 21:48:10 WARN BLAS:Failed to load implementation form:com. github. fommil. netlib. NativesystemBLAS 
15/05/29 21:48:10 WARN BLAS:Failed to load implementation form:com. github. fommil. netlib. NativeRefBLAS 
CLuster centers: 

OO 

9.1,9.1,9.1 
Within Set Sum of Squared Errors - 0.11999999999994547 


Process finished with exit code 0 
图 9-4 打印 数据 模型 的 中 心 点 


据 所 属 有 的 中 心 点 时 会 参考 前 面 求 出 的 中 心 点 的 顺序 。 从 图 9-5 中 可 以 看 出 向 量 [ 0.2, 
0.2,0.2] 属于 中 心 点 索引 为 1 的 向 量 [0.10000000000000002, 0. 10000000000000002 , 
0. 10000000000000002], ， 向 量 [0. 25 ,0. 25 ,0. 25] 进行 数据 模型 预测 后 也 属于 中 心 点 索引 为 
1 的 向 量 [0. 10000000000000002 , 0. 10000000000000002 , 0. 10000000000000002 ] ， 而 向 量 
[8,8,8] 属于 中 心 点 索引 为 0 的 向 量 [9.1,9.1,9.1]。 


Cluster centers: 
[9. 1, 9. 1, 9. 1] 
[0. 10000000000000002, 0. 10000000000000002, 0. 10000000000000002] 
Within Set Sum of Squared Errors - 0.11999999999994547 
Vectors 0.2 0.2 0.2 is belong to clusters:l 
Vectors 0.25 0.25 0.25 is belong to clusters:l 
Vectors 8 8 8 is belong to clusters:0 


图 9-5 使 用 数据 模型 进行 单 点 数据 测试 


3) 对 于 交 又 评 佑 1， 需要 使 用 模型 进行 预测 的 数据 testdata 是 通过 对 从 本 地 文件 目录 
加 载 进 来 的 数据 data 进行 map 操作 ， 在 map 操作 内 部 的 函数 会 把 data 中 的 每 行 数据 转换 
为 一 个 向 量 。 接 着 调用 model. predict( testdata) ， 并 把 预测 的 结果 resultl 保存 到 本 地 的 文 
件 目 录 下 (如 图 9-6)。 打 开 resultl 文件 可 以 看 到 结果 只 显示 了 每 个 回 量 所 属 的 聚 类 索引 
号 ， 我 们 并 不 知道 到 底 是 哪个 向 量 属于 哪个 聚 类 ， 因 此 交叉 评 佑 1 的 结果 不 是 我 们 先 要 
看 到 的 。 


习 part-00000 x 


I 


图 9-6 交叉 评估 1 的 运行 结 


4) 接着 进行 交叉 评 佑 2 的 操作 ， 在 交叉 评 佑 2 的 实现 代码 中 ， 最 关键 的 实现 是 在 数据 
集 data 调用 的 map 操作 内 的 函数 实现 ， 在 map 操作 的 函数 中 ， 会 对 每 行 数据 line 进行 向 量 。 

化 并 直接 使 用 数据 模型 对 向 量 进行 测试 (预测 )， 这 样 最 终 的 操作 结果 是 返回 数据 集 和 
它 所 属 的 中 心 点 的 罕 引 值 ( 如 图 9-7 所 示 )。 


part-00000 
0.0 0. 


x 
0 0 
0.1 0.1 0 
0.2 0.2 0 
9.0 9.0 1 
9.1 9.1 1 
98.2 9.2 1 


图 9-7 交叉 评估 2 的 运行 结 


当然 这 时 候 在 控制 台 显 示 的 聚 类 顺序 如 图 9-8 所 示 ， 这 样 我 们 很 清楚 地 知道 向 量 [0,0,0] 
属于 索引 值 为 0 的 向 量 [0. 10000000000000002 ,0. 10000000000000002 ,0. 10000000000000002] ， 向 量 
[9.0,9.0,9.0] 属于 中 心 点 索引 值 为 1 的 向 量 [9.1,9.1,9.1]。 


Cluster centers: 
i, TT C0000002, 9. RINNE el TOO 
i Fo oak? Fan a? Fo 

Within Set Sum of Squared Errors = 0. 11999999999994547 


图 9-8 dut ny AR Ie 


到 此 ，K - Means 算法 解析 和 实践 的 讲解 暂时 告 一 段落 ， 考 虑 到 K - Means 算法 在 生产 
环境 中 的 重要 性 ， 还 是 希望 大 家 彻底 掌握 它 。 


自从 亚马逊 公司 公布 了 协同 过 滤 算 法 后 ， 在 推荐 系统 领域 ， 它 驶 占据 了 很 重要 的 地 位 。 
不 像 传统 的 内 容 推 荐 ， 协 同 过 滤 不 需要 考虑 物品 的 属性 问题 、 用 户 的 行为 和 行业 问题 等 ， 只 
需要 建立 用 户 与 物品 的 关联 关系 即 可 ， 可 以 物品 之 间 更 多 的 内 在 关系 ， 类 似 于 经 典 的 啤酒 与 
尿 不 湿 的 营销 案例 。 所 以 ， 讲 到 推荐 必须 要 首先 分 诗 协 同 过 小。 对 于 协同 过 滤 及 其 经 典 算法 


ALS 〈 交 蔡 最 小 二 乘法 ) ， 在 介绍 MLlib 的 四 大 算法 里 面 我 们 已 经 讲 过 ， 这 里 我 们 直接 使 用 
ALS 算法 来 根据 某 用 户 对 电影 的 打分 进行 电影 的 推荐 。 

1. 数据 准备 

这 里 我 们 使 用 的 是 MoiveLens 的 数据 集 ， 下 载 地 址 是 : http://www. grouplens. org/ data- 
sets/movielens/ 。 它 提供 了 100 KB 到 100 多 MB 大 小 的 数据 ， 我 们 这 里 选择 1 MB 大 小 的 数 
据 。 对 下 载 的 数据 解压 之 后 ， 会 出 现 很 多 文件 ， 我 们 需要 使 用 ratings. dat, users. dat 和 mov- 
ies. dat 文件 中 的 数据 。 详 细 的 数据 说 明 可 以 参见 README. txt 文件 。 

(1) ratings. dat 文件 是 用 户 对 电影 的 评分 数据 ， 数 据 格式 为 : UserID (用 户 ID) :: Mov- 
ieID (电影 ID) ::Rating (评分 ) : :Timestamp 〈 时 间 戳 ) ， 样 本 数据 如 下 所 示 。 


userld ,movieId rating ,timestamp 
1,253,3. 0,900660748 
1,1387,3. 0,900660748 
1,1407,5. 0,900660871 
1,1717,5. 0,900660871 
1,1876,3. 0,900660543 
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1 ,1882 ,3. 0,900660584 
1,1895,4. 0,900660518 
1,1909,3. 0,900660468 
1,1911,3. 0,900660543 
1,1917,4. 0,900660518 
1,1918,4. 0,900660518 
1,1982,5. 0,900660748 
1,1983,5. 0,900660951 
1,2000,4. 0,900661051 
1,2001 ,4. 0,900661051 
1,2002 ,4. 0,900661051 
1,2003 ,2. 0,900660748 


(2) users. dat 文件 是 用 户 的 个 人 信息 ， 数 据 格式 是 : UserID (用 户 ID) :: Gender. (人 性 
别 ) : :Age (年 龄 ) : :Occupation (职业 )::Zip -code (邮政 编码 ) ， 样 本 数据 如 下 所 示 。 


::1::10::48067 
::36::16::70072 
::25 ::105::55117 
::45 : :7: :02400 

: :23 ::20::55455 
:50::9::55117 
::33 ::1::06810 
::25 :1102::11413 
::25 :1107::61614 
2:35::1::95370 
:25 : 11::04093 
::25:112::32793 
: :45 : :1 : :93304 
:351:0::60126 
::25 117122903 
:35 : :0: :20070 
::230::1::95350 
:18::3::95825 
::1::10::48073 
::25:1104::55113 
::18::16::99353 
::18::15::53706 


(3) movies. dat 文件 是 电影 的 详细 信息 ， 数 据 格式 为 : MovieID (电影 ID) : ; Title. (电影 
名 ) : :Cenres (电影 类 型 ) ， 样 本 数据 如 下 : 
1::Toy Story(1995) : :Animation | Children's | Comedy 


2: :Jumanji( 1995) : : Adventure | Children's | Fantasy 
3::Grumpier Old Men(1995) : : Comedy | Romance 
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4; ; Waiting to Exhale( 1995) ; : Comedy | Drama 
5; ; Father of the Bride Part II( 1995) ; ; Comedy 
6: :Heat( 1995) ; : Action | Crime | Thriller 
7 : :Sabrina( 1995) : ; Comedy | Romance 

8: :Tom and Huck( 1995) ; ; Adventure | Children's 

9: :Sudden Death ( 1995) ; ; Action 

10; : GoldenEye( 1995) ; : Action | Adventure | Thriller 

11; : American President , The( 1995) ; : Comedy | Drama | Romance 
12; : Dracula; Dead and Loving It( 1995) ; : Comedy | Horror 

13; : Balto( 1995) ; ; Animation | Children's 

14; :Nixon( 1995) ; : Drama 

15; ; Cutthroat Island( 1995) : : Action | Adventure | Romance 

16; : Casino( 1995) : ; Drama | Thriller 

17; :Sense and Sensibility ( 1995) ; : Drama | Romance 


2. 实现 的 功能 

这 里 有 10 万 条 用 户 对 电影 的 评分 ， 从 1 分 到 5 分 ，1 分 表示 差劲 ，5 分 表示 非常 好 看 。 
根据 用 户 对 电影 的 喜好 ， 给 用 户 推荐 可 能 感 兴趣 的 电影 。 

3. 实现 思 

(1) 装载 由 评分 由 评分 需 生 成 的 用 户 评分 数据 。 

(2) 装载 样本 评分 数据 ， 其 中 最 后 一 列 Timestamp 取 除 10 的 余数 作为 key, Rating 为 
(E, BB (Int, Rating) 。 这 里 的 Rating 是 MLlib 中 实现 的 一 个 case class, 

(3) 训练 不 同 参数 下 的 模型 ， 并 在 校 验 集中 验证 ， 获 取 最 佳 参数 下 的 模型 。 

(4) 用 最 佳 模型 预测 测试 集 的 评分 ， 并 计算 和 实际 评分 之 间 的 均 方 根 误差 。 

(5) 推荐 前 十 部 最 感 兴趣 的 电影 ， 注 意 要 剔除 用 户 已 经 评分 的 电影 。 

4. 代码 实现 

(1) 评分 需 生 成 用 户 评分 的 代码 ， 如 下 所 示 。 


import sys 


from os import remove , removedirs 
from os. path import dirname, join, isfile 


from time import time 


topMovies = " "" 1, Toy Story( 1995) 

780 , Independence Day( a. k. a. ID4) (1996) 

590 , Dances with Wolves( 1990) 

1210,Star Wars; Episode VI — Return of theJedi( 1983) 
648 , Mission ; Impossible ( 1996) 

344 , Ace Ventura; Pet Detective( 1994.) 

165,Die Hard; With a Vengeance( 1995) 

153 , Batman Forever( 1995) 

597 , Pretty Woman ( 1990) 


Wa spark 


(2 


WY] 


1580, Men in Black (1997 ) 
231 , Dumb & Dumber(1994)""" 


parentDir = dirname( dirname( __file__) ) 


ratingsFile = join ( parentDir , " personalRatings. txt" ) 


ifisfile( ratingsFile) : 


r = raw, input( " Looks like you've already rated the movies. Overwrite ratings( y/N) ? " ) 


if r and r[0]. lower( ) == "y"; 
remove ( ratingsFile ) 
else: 


sys. exit( ) 


prompt =" Please rate the following movie( 1 — 5( best) ,or O if not seen) ;" 


print prompt 


now = int( time( ) ) 


n=0 


f = open ( ratingsFile ,'w' ) 
for line intopMovies. split( " Xn" ) : 
ls = line. strip( ). split(" ," ) 
valid = False 
while not valid: 
rStr = raw, input(ls[ 1] +":") 
r=int(rStr) if rStr. isdigit( ) else -1 
if r«0 orr»5; 
print prompt 
else: 


valid = True 


if r»0. 
f. write("0::%s::%d::%d\n" 96 (1s[0] ,r, now) ) 
n+=1 
f. close( ) 
ifn == 


print " No rating provided!" 
电影 推荐 系统 的 代码 ， 如 下 所 示 。 


import java. io. File 

import scala. io. Source 

import org. apache. log4j. | Level , Logger } 
import org. apache. spark. SparkConf 
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import org. apache. spark. SparkContext 


import org. apache. spark. SparkContext. _ 
import org. apache. spark. rdd. _ 
import org. apache. spark. mllib. recommendation. | ALS, Rating , MatrixFactorizationModel | > 


objectMovieLensALS | 


def main( args; Array| String] ) | 
// 屏 蔽 不 必要 的 日 志 显 示 在 终端 上 
Logger. getLogger( " org. apache. spark" ). setLevel( Level. WARN) 


Logger. getLogger( " org. eclipse. jetty. server" ). setLevel( Level. OFF) 


if( args. length!- 2) | 
println( " Usage :/path/to/spark/bin/spark — submit — — driver ~ memory 2g —— class week6. Movie- 
LensALS " + 
" target/scala — * /movielens — als — ssembly — * . jar movieLensHomeDir personalRatings- 
File" ) 
sys. exit( 1) 


// 设 置 运行 环境 
val conf = newSparkConf( ). setAppName( " MovieLensALS" ) 


val sc = newSparkContext ( conf) 


/装载 用 户 评分 ,该 评分 由 评分 器 生成 
valmyRatings = loadRatings( args ( 1 ) ) 
valmyRatingsRDD = sc. parallelize( myRatings, 1 ) 


// 样 本 数据 目录 


valmovieLensHomeDir = args (0) 


/装载 样 本 评分 数据 ,其 中 最 后 一 列 Timestamp 取 除 10 的 余数 作为 key, Rating 为 值 , 即 ( Int, 
Rating ) 
val ratings = sc. textFile( new File( movieLensHomeDir," ratings. dat" ). toString). map | line => 
val fields = line. split("::") 
(fields(3). toLong % 10, Rating( fields(0). toInt ,fields( 1 ). toInt ,fields (2). toDouble) ) 


// RRE HRA ER E ID - > 电影 标题 ) 

val movies = sc. textFile( new File( movieLensHomeDir," movies. dat" ). toString). map | line => 
val fields = line. split(" ::" ) 
( fields (0). toInt, fields ( 1 ) ) 


a 
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|. collect( ). toMap 


valnumRatings = ratings. count( ) 
valnumUsers = ratings. map(. . _2. user). distinct( ). count( ) 


valnumMovies = ratings. map(_. _2. product). distinct( ). count( ) 


printIn ( " Got " + numRatings +" ratings from " + numUsers +" users on " + numMovies +" movies. " ) 


// 将 样本 评分 表 以 key 值 切 分 成 3 个 部 分 ,分 别 用 于 训练 (60% ,并 加 入 用 户 评分 ) , 校 验 
(20% ) ,and 测试 (20% ) 
// 该 数据 在 计算 过 程 中 要 多 次 应 用 到 ,所 以 cache 到 内 存 
valnumPartitions =4 
val training = ratings. filter(x 2» x. _1 <6) 
. values 
. union( myRatingsRDD) /注意 ratings Æ (Int, Rating) , À value 即 可 
. repartition ( numPartitions ) 
. cache( ) 
val validation = ratings. filter(x 2» x. 1 >=6 && x. 1 <8) 
. values 
. repartition ( numPartitions ) 
. cache( ) 


val test = ratings. filter(x 2» x. 1 >=8). values. cache( ) 


valnumTraining = training. count( ) 
valnumValidation = validation. count( ) 


valnumTest - test. count( ) 


println( " Training:" + numTraining +" ,validation;" + numValidation + " ,test;" + numTest) 


/ MIA ERT BALISE LJ PE Bed PTE ,获取 最 佳 参数 下 的 模型 

val ranks = List( 8,12) 

vallambdas = List(0. 1,10. 0) 

valnumlters = List( 10,20) 

varbestModel ; Option| MatrixFactorizationModel | = None 

varbestV alidationRmse = Double. MaxValue 

varbestRank =0 

varbestLambda = - 1. 0 

varbestNumlter = — 1 

for( rank <- ranks; lambda <- lambdas; numlter <- numlters) | 
val model = ALS. train( training , rank , numlter , lambda ) 
valvalidationRmse = computeRmse ( model, validation , num Validation ) 


println( " RMSE( validation) =" + validationRmse +" for the model trained with rank =" 


ML I ib 


+ rank +" ‚lambda =" + lambda +" ,andnumlter =" + numlter +". " ) 
if( validationRmse < bestValidationRmse) | 

bestModel = Some ( model ) 

bestValidationRmse = validationRmse 

bestRank = rank 

bestLambda = lambda 


bestNumlter = numlter 


/用 最 佳 模 型 预测 测试 集 的 评分 ,并 计算 和 实际 评分 之 间 的 均 方 根 误差 


valtestRmse = computeRmse( bestModel. get , test , numTest ) 


println( " The best model was trained with rank =" + bestRank +" and lambda ="  bestLambda 


+ " ,andnumlter =" + bestNumlter +" , and its RMSE on the test set is " + testRmse +". " ) 


// create a naive baseline and compare it with the best model 
// 
valmeanRating = training. union( validation). map(_. rating). mean 
valbaselineRmse = 
math. sqrt( test. map( x => ( meanRating — x. rating) * ( meanRating — x. rating) ). mean) 
val improvement = ( baselineRmse - testRmse) / baselineRmse * 100 


printIn( " The best model improves the baseline by " +" 961. 2f". format( improvement) +" %." ) 


// 推 荐 前 十 部 最 感 兴趣 的 电影 ,注意 要 剔除 用 户 已 经 评分 的 电影 
valmyRatedMovields = myRatings. map(_. product). toSet 
val candidates = sc. parallelize( movies. keys. filter( | myRatedMovields. contains(_) ). toSeq) 
val recommendations = bestModel. get 
. predict( candidates. map( (0,. ) ) ) 
. collect( ) 
. sortBy( —  . rating) 
. take( 10) 


var i=1 
printIn( " Movies recommended for you;" ) 


recommendations. foreach | r => 


printIn( " % 2d". format(i) +" :" + movies( r. product) ) 
it=1 

| 

//tü 


sc. stop( ) 
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/ % 校 验 集 预 测 数据 和 实际 数据 之 间 的 均 方 根 误差 **/ 
defcomputeRmse( model :MatrixFactorizationModel , data; RDD[ Rating | ,n:Long) :Double = | 
val predictions; RDD[ Rating] = model. predict( data. map( x => (x. user,x. product) ) ) 
val predictionsAndRatings = predictions. map( x => ( (x. user,x. product) ,x. rating) ) 
. join( data. map( x => ( (x. user,x. product) ,x. rating) ) ) 
. values 
math. sqrt( predictionsAndRatings. map(x => (x. 1-x 2) *(x 1-x _2)).reduce(_+_) / 
n) 
| 


/ o 装载 用 户 评分 文件 n 
defloadRatings ( path; String) : Seq[ Rating | = | 
val lines = Source. fromFile( path). getLines( ) 
val ratings = lines. map | line => 
val fields = line. split("::") 
Rating( fields (0). toInt , fields( 1). toInt, fields (2). toDouble ) 
|. filter(_. rating >0. 0) 
if( ratings. isEmpty) | 
sys. error( " No ratings provided. " ) 
| else | 


ratings. toSeq 


| 

S. 运行 

此 次 我 们 选择 把 在 IntelliJ IDEA 中 建立 的 关于 MovieLensALS 协同 过 滤 工 程 进行 打包 ， 
然后 再 在 Spark 集群 中 进行 运行 。 在 IntelliJ IDEA 中 构建 项 目 以 及 Spark 集群 的 启动 我 们 在 
前 面 的 章节 已 经 讲 过 ， 这 里 不 再 具体 演示 。 

(1) 首先 我 们 在 /home//IdeaProjects/machine - learning/ 目 录 下 会 有 一 个 名 称 为 personal- 
Ratings. txt. template 的 文件 ， 在 用 评分 需 进 行 评 分 的 时 候 会 在 这 个 文件 的 基础 之 上 生成 一 个 
名 称 为 personalRatings. txt 的 评 过 分 数 的 文件 。 该 文件 里 面 的 内 容 如 下 : 


: 1648 : :?: : 1400000000 : :Mission :Impossible( 1996) 


: :344: :?: :1400000000: :Ace Ventura; Pet Detective( 1994 ) 


::165::?::1400000000: : Die Hard; With a Vengeance( 1995 ) 


::153::?::1400000000: : Batman Forever( 1995 ) 


::597::?::1400000000: : Pretty Woman( 1990) 


cO occ coc c cc c 


0::1580: 
0::231: 


iii : 1400000000 : : Men in Black (1997) 
:1400000000 : : Dumb & Dumber( 1994) 


(2) 在 Spark 集群 运行 关于 MovieLensALS 的 工程 之 前 ， 我 们 先 在 Ubuntu 的 shell 命令 终 
端 执行 以 下 代码 来 调用 用 户 评分 器 文件 (mateMovies) ， 然 后 生成 一 个 用 户 进行 评分 的 文件 。 人 人) 


cd /home//IdeaProjects/ machine - learning/ 
bin/rateMovies 


(3) 执行 上 述 bin/rateMovies 命令 后 在 Shell 终端 会 输出 “Please rate the following movie 
人 点 击 回 车 键 输出 每 部 电影 ， 并 对 其 进行 评分 。 
(从 1 分 到 5 分 ，! 分 表示 差劲 ，$ 分 表示 非常 好 看 )， 如 图 9-9 所 示 。 


Please rate the following movie (1-5 (best), or 0 if not seen): 
Toy Story (1995): 5 

Independence Day (a.k.a. ID4) (1996): 4 

Dances with Wolves (1990): 3 

Star Wars: Episode VI - Return of the Jedi (1983): 4 

Mission: Impossible (1996): 5 


Ace Ventura: Pet Detective (1994): 3 
Die Hard: With a Vengeance (1995): 4 
Batman Forever (1995): 5 

Pretty Woman (1990): 4 

Men in Black (1997): 5 

Dumb & Dumber (1994): 5 


图 9-9 FPR ad aio HAS ET PRD 


(4) PESE 11 部 电影 的 分 数 后 ， 会 在 /home//IdeaProjects/machine - learning/ H 3€ F Æ BY 
一 个 名 称 为 personalRatings. txt 的 用 户 评分 文件 ， 如 图 9-10 所 示 。 


Lj] personalRatings.txt x 


1:1::5::1409495135 
::780::4::1409495135 
::590::3::1409495135 
::1210::4::1409495135 


:648::5::1409495135 
3::1409495135 
:1:165::4::1409495135 
1:153::5::1409495135 
:1597::4::1409495135 


::1580::5::1409495135 


0 
0 
0 
0 
0: $ 
0::344:: 
0 
0 
0 
0 
0::231::5::1409495135 


[9-10 用 户 评 分 文件 personalRatings. txt 


(5) 最 后 就 是 在 shell 命令 终端 用 spark - submit 工具 来 提交 任务 了 ， 首 先 要 进入 Spark 
和 HOME 目录 下 ， 执 行 以 下 命令 : 


bin/spark - submit — — master spark ;//SparkMaster;7077 —-— executor - memory 8g / 
—— classmlmovie. MovieLensALS mlmovie. jar / 
file: ///home//IdeaProjects/ machine - learning/movielens/medium/ / /home// 


IdeaProjects/machine - learning/personalRatings. txt 


在 这 里 我 们 简单 介绍 一 下 submit BRAK: 
1) Master 我 们 选择 的 是 Standalone 运行 模式 下 主机 名 为 SparkMaster 的 Master, EHL 
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就 是 用 户 上 自己 配置 的 Master 结 点 的 主机 名 ; 

2) mlmovie. MovieLensALS mlmovie. jar 指 的 是 要 运行 的 含有 Main 方法 的 打 过 包 的 jar 
Xf; 

3) file:///home//IdeaProjects/machine — learning/movielens/medium 是 要 加 载 的 样本 数据 
的 目录 ， 目 录 下 面 有 我 们 要 加 载 的 ratings. dat 和 movies. dat 文件 ; 

4) /home//IdeaProjects/machine - learning/personalRatings. txt tA FA PF 1M ot PED AEE 
的 评 过 分 的 文件 。 

(6) 运行 结果 。 从 如 图 9-11 的 运行 结果 中 我 们 看 到 加 载 进来 的 样本 数据 有 6040 位 用 
户 对 3706 部 电影 做 了 1000209 个 评分 ; 有 602252 条 评分 数据 用 来 做 Training (训练 )， 
198919 条 评分 数据 做 validation. 〈 评 佑 ) , 199049 条 数据 用 来 做 test (测试 ); 在 对 8 种 情况 
的 参数 组 合 进 行 最 佳 数据 模型 的 测试 后 ,得 出 最 好 的 数据 模型 是 参数 rank = 8. lambda = 
10. 0, numlter =20 的 模型 ; 最 终 向 使 用 评分 顺 对 提供 的 11 部 电影 进行 过 评分 的 用 户 推 荐 了 
10 部 电影 。 


ot 1000209 ratings from 6040 users on 3706 novies, 

Training: 602252, validation: 198919, test: 199049 
(validation) - 0.9552578279170443 for the model trained with rank , lambda = 0.1, and numIter = 
(validation) 0.9510527170784763 for the model trained with rank , Lambda = 8.1, and numIter = 
(validation) 0.8858844389573322 for the model trained with rank , lambda - 10.0, and numIter - 
(validation) 0.8826441136754684 for the model trained with rank - 8, lambda - 10.0, and numIter 


(validation) 1.0247487950144085 for the model trained with rank - 12, lambda - 0.1, and numIter 20. 
(validation) 0.8869216672500277 for the model trained with rank = 12, lambda = 10.6, and numIter = 10. 
(validation) - 0.8837305066623388 for the model trained with rank - 12, lambda - 10.9, and numIter - 20. 

he best model was trained with rank = 8 and lambda = 10.0, and numIter = 20, and its RMSE on the test set is 0.88186722 


(validation) = 1.0201507007524229 for the model trained with rank = 12, lambda = 0.1, and numIter 


he best model improves the baseline by 20.80X. 
ovies recommended for you: 

1: Raiders of the Lost Ark (1981) 

: Matrix, The (1999) 

: Star Wars: Episode IV - A New Hope (1977) 

: Terminator 2: Judgment Day (1991) 

: Sixth Sense, The (1999) 

: Gladiator (2000) 

: Braveheart (1995) 

: Star Wars: Episode V - The Empire Strikes Back (1980) 
: Die Hard (1988) 

: Terminator, The (1984 


O :00-O0 Uu UuwN 


— 


图 9-11 电影 推荐 系统 的 运行 结 
至 此 ， 协 同 过 滤 算 法 的 案例 实战 操作 已 经 讲 完 ， 这 里 最 重要 的 就 是 object MovieLensALS 
中 的 代码 实现 了 ,希望 读者 多 看 儿 遍 这 部 分 的 代码 ， 并 在 自己 搭建 的 Spark 系统 下 亲 目 运行 
操作 。 


思考 题 


l. 机 融 学 习 是 一 门 多 交叉 的 学 科 ， 内 容 庞大 ， 算 法 复 杀 ， 对 于 一 般 的 开发 人 员 而 言 ， 
最 基本 的 要 求 是 对 这 些 算法 的 使 用 ， 对 于 和 常用 的 那些 算法 ,你 是 否 清 楚 它 的 原理 ? 

2. 本 章 中 对 MLlib 中 非常 常见 重要 的 两 种 算法 ( 聚 类 和 协同 过 小 的 算法 ) 进行 了 案例 
的 实战 操作 ， 你 是 否 参 考 笔者 的 内 容 在 自己 的 Intellij IDEA 和 Spark 集群 上 进行 过 实战 操作 ? 


y park 
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若 名 太 数 据 增 训 师 、Spark 大 数据 炳 销 书 4 大 数据 Spark 企 业 级 实战 训 
作者 王家 林 新 作 。 

内 容 全 面团 铸 Spark 技 术 及 其 生 塌 系 统 ， 通 过 源码 分 析 详 解 Spark 四 大 
子 框架 。 

各 了 生 “ 和 实战 ， 瞎 图 书 特 点 ， 解 机 了 大 最 的 还 代码 ， 具 有 较 强 的 可 操作 
性 ， 便 于 读者 学 习 和 理解 ， 
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